Python
白糖炒栗子~
这个作者很懒,什么都没留下…
展开
-
Jupyter Lab 简单配置
用了Jupyter Lab,所有IDE你都不会想再碰。Jupyter notebook 有多好用还需要我说么?但是更好用的Jupyter Lab 你也必须一试Jupyter Lab 简介JupyterLab 是一个交互式的开发环境,是 Jupyter notebook 的下一代产品,集成了更多的功能,简直好用爆了好嘛。使用 JupyterLab,你可以:可以开启终端,用于交互式运...原创 2019-03-26 21:28:20 · 30623 阅读 · 10 评论 -
K-近邻算法(史诗级干货长文)
本文转自非常优秀的一位博主:Jack-Cui : http://blog.csdn.net/c406495762 一 简单k-近邻算法 本文将从k-邻近算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集,对代码进行了详细的注释。除此之外,本文也对sklearn实现k-邻近算法的方法进行了讲解。实战实例:电影类别分类、约会网站配对效果判定...转载 2018-09-18 22:53:28 · 20460 阅读 · 3 评论 -
Python for Data Science(Python数据科学):您可能忘记的8个概念
Python for Data Science(Python数据科学):您可能忘记的8个概念目录Python for Data Science(Python数据科学):您可能忘记的8个概念1.单行列表理解2.Lambda函数3.Map,Filter和Reduce函数MapFilterReduce4. Arange和Linspace函数ArangeLins...原创 2018-09-24 12:50:43 · 2757 阅读 · 0 评论 -
Pycharm绘图时显示额外的“figure”浮窗
问题:现在默认的Pycharm绘图时,都会出现下面的情况:不能弹出如下图所示的“figure”窗口解决方法:这是因为PyCharm在本windows中开放它。具体操作步骤如下所示: 1、“File--->Settings--->Tools--->Python Scientific"找到“Python Scientific”,去除右边候选框中的勾号...原创 2018-09-13 16:29:00 · 16407 阅读 · 9 评论 -
Python图像处理库PIL的ImageFilter模块介绍
Python图像处理库PIL的ImageFilter模块介绍ImageFilter模块提供了滤波器相关定义;这些滤波器主要用于Image类的filter()方法。一、ImageFilter模块所支持的滤波器当前的PIL版本中ImageFilter模块支持十种滤波器:1、 BLURImageFilter.BLUR为模糊滤波,处理之后的图像会整体变得模糊。例子:>&...转载 2018-09-13 15:03:49 · 5632 阅读 · 0 评论 -
Python 特别棒的一个画图表的库 ——Pyecharts
Pyecharts:http://pyecharts.org/#/zh-cn/prepare原创 2018-09-10 19:06:33 · 4350 阅读 · 0 评论 -
预知未来 Python 中的__future__模块(from __future__ import ***)
最近在学习数据挖掘时,遇到了一行代码:from __future__ import print_function可能大家有时在研读代码的时候也会遇到这样的一类代码(from __future__ import ***)那么这是什么意思呢?其实这是引用了__future__模块,我们知道,Python就现在而言有Python2和Python3,反正Python也是在一直更新着的,...原创 2018-09-10 18:45:30 · 676 阅读 · 0 评论 -
【Python爬虫】爬虫实战
今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)OWechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆...转载 2018-09-06 19:28:14 · 1311 阅读 · 0 评论 -
Sklearn提供的常用标准数据集
Sklearn 数据集名称 调用方式 适用算法 数据规模 小 波士顿房价数据集 load_boston() 回归 506*13 数 鸢尾花数据集 load_iris() 分类 150*4 据 糖尿病数据集 load_diabetes() 回归 442*10 集 ...原创 2018-09-14 22:28:26 · 2921 阅读 · 0 评论 -
查看DataFrame输出数据print出......省略号
问题描述:当我们用DataFrame查看数据时,经常发生这样的事,当你想查看某一列或行数据的时候,却发现被省略输出了,然后还需要单独打印出那一列或行,这就很不方便。如图:解决方法:只需要插入一段代码就好:import pandas as pdpd.set_option('display.max_rows',1000) # 具体的行数或列数可自行设置pd....原创 2018-09-15 15:39:58 · 4704 阅读 · 1 评论 -
【机器学习】Python数据标准化方法、聚类方法、分类方法总结:
(一)数据标准化的方法: (1)离差标准化(最大最小值标准化) (2)标准差标准化、 (3)归一化标准化 (4)二值化标准化 (5)独热编码标准化 (二)聚类的方法: (1)划分法(k-means算法(k-均值算法),k-MEDOIDS算法(k-中心),CLARANS算法) (2)层次分析方法(BIRCH算法,cure算法) (3)基于密度的方法(DBSCAN算法,DENCLUS...转载 2018-11-01 19:12:10 · 1182 阅读 · 0 评论 -
【数据处理】Python画图显示方块或乱码的问题一次性永久解决
当我们满心欢喜的拿到一个数据集准备处理时,却发现特征都是中文的,顿时心中就打起了鼓来,不敢确定在处理数据,或者数据可视化时会出什么幺蛾子。但是没办法只能硬着头皮上啊。那么接下来李小宽带你来解决这个令人问题:问题:看吧,明明很不容易从几百个特征中挑出几个来想看看皮尔逊相关度矩阵,结果成了这样,全是方块。(加# -*- coding: utf-8 -*-也不管用sa)...原创 2018-10-21 18:11:31 · 6856 阅读 · 3 评论 -
【机器学习】数据分析王者 CatBoost vs. Light GBM vs. XGBoost
机器学习领域的一个特点就是日新月异,在数据竞赛中,一件趁手的工具对比赛结果有重要影响。boosting是一种将弱分类器组合成强分类器的方法,它包含多种算法,如GDBT、AdaBoost、XGBoost等等。如果你参加过Kaggle之类的数据竞赛,你可能听说过XGBoost在数据江湖上的领导地位,也可能好奇过LGBM的快速崛起。但是,你听说过俄罗斯最大搜索引擎Yandex开发的CatBoost吗?...转载 2018-10-22 21:06:44 · 3484 阅读 · 0 评论 -
Python Jupyter Notebook 显示行数完美解决
问题:Jupyter Notebook 默认状态下不会在代码左端显示行号,这就导致我们遇到报错时,无法正常调试。图: 解决方案:点击View-->点击Toggle Line Numbers就完成啦。 真的真的强烈推荐大家使用Jupyter Notebook,真心太好用了。(我在Pycharm上运行的程序不知怎么的,不仅直接导致了Pychar...原创 2018-10-09 09:09:16 · 49635 阅读 · 14 评论 -
【机器学习】Sklearn 常用分类器(全)
【机器学习】Sklearn 常用分类器(全)### KNN Classifier from sklearn.neighbors import KNeighborsClassifierclf = KNeighborsClassifier()clf.fit(train_x, train_y)_____________________________________________...原创 2018-10-11 13:39:58 · 24507 阅读 · 1 评论 -
【机器学习】特征工程多特征值序列化数值化独热编码处理(LabelEncoder, pd.factorize())
多特征值序列化数值化独热编码处理当我们在运用某些模型时,比如在Scikit-learn中,它要求数据都得是numberic(数值型),若是文本类型就无法进行训练。那么在这种情况下,我们就应该先对数据进行序列化数值化:下面是几种在Python中数值化的方法:1. 自然数编码 : a) 使用sklearn中的LabelEncoder()方法,转换为数值型特征 ...原创 2018-09-15 16:01:04 · 5484 阅读 · 2 评论 -
Python文件读写总结
Python文件读写总结读文件打开一个文件用open()方法(open()返回一个文件对象,它是可迭代的):>>> f = open('test.txt', 'r')r表示是读文本文件,rb是二进制文件。(这个mode参数默认值就是r)如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在:>...转载 2018-08-10 20:41:35 · 351 阅读 · 0 评论 -
Python的22个超实用编程技巧,简化 if 语句、开启文件分享……
1. 原地交换两个数字Python 提供了一个直观的在一行代码中赋值与交换(变量值)的方法,请参见下面的示例:x,y= 10,20print(x,y)x,y= y,xprint(x,y)#1 (10, 20)#2 (20, 10)赋值的右侧形成了一个新的元组,左侧立即解析(unpack)那个(未被引用的)元组到变量和。一旦赋值完成,新的元组变成了未被引用状态并且被标记为可被垃圾回收,最终也完成了变...转载 2018-07-03 16:15:03 · 486 阅读 · 0 评论 -
【机器学习】【数据处理】Pandas 处理缺失值
目前很多流行的数据集都会存在数据缺失的现象。一般我们在用Pandas处理缺失值的方法有两种: 1.用覆盖全局的掩码来表示缺失值.(用布尔类型来代替原先数据/用0或1来表示) 2.用一个标签值来表示缺失值.(用一个具体的自定义的数据来表示,如-9999. 或用None或NaN)1.缺失值具体使用哪种方法还需要看具体情况: ...原创 2018-06-09 13:50:20 · 1106 阅读 · 0 评论 -
【数据处理】Numpy.random模块的常用函数
我们原创 2018-05-31 19:43:45 · 388 阅读 · 0 评论 -
【数据处理】numpy.random.RandomState的用法
跟numpy.random.seed()一样刚开始理解都是很头疼的存在,但其实他们的用法几乎一样(如果有人对seed()有疑问的话可以看我的另一篇讲解:【数据处理】Numpy.random.seed()的用法 ):numpy.random.RandomState()是一个伪随机数生成器。那么伪随机数是什么呢?伪随机数是用确定性的算法计算出来的似来自[0,1]均匀分布的随机数序列。并不真正的...原创 2018-06-02 18:35:33 · 65045 阅读 · 17 评论 -
【数据处理】Numpy.random.seed()的用法
刚开始看到numpy.random.seed(0)这个用法看不太懂,尤其是seed()括号里的数字总是不同时,更是懵逼。类似的取随机数的还有这个:【数据处理】numpy.random.RandomState的用法其实,设置seed()里的数字就相当于设置了一个盛有随机数的“聚宝盆”,一个数字代表一个“聚宝盆”,当我们在seed()的括号里设置相同的seed,“聚宝盆”就是一样...原创 2018-06-02 17:52:13 · 86670 阅读 · 16 评论 -
Python对list对象进行排序总结
Python对list对象进行排序总结1.sort()list类型有一个自带的排序函数sort()list.sort(cmp=None, key=None, reverse=False)参数说明:(1) cmp参数cmp接受一个函数,来确定比较方式,默认的是:def f(a,b): return a-b返回负数就是a<b。(升序)所以我们如...原创 2018-08-10 20:57:39 · 8590 阅读 · 0 评论 -
史上最简单十大排序算法(Python实现)
目录十大排序算法(Python实现)一. 算法介绍及相关概念解读算法分类相关概念1. 交换排序1.1 冒泡排序(Bubble Sort)1.2 快速排序(Quick Sort)2. 插入排序2.1 简单插入排序(Insert Sort)2.2 希尔排序(Shell Sort)3.选择排序3.1 简单选择排序(Select Sort)3.2 堆排序...原创 2018-08-21 15:40:26 · 61252 阅读 · 7 评论 -
【Pandas数据分析】Pandas 统计特征函数和统计作图函数(最简单的数据探索入门)
基本统计特征函数下面所说的统计特征函数主要作为Pandas的对象DataFrame或Series的方法出现。describe 针对Series或个DataFrame列计算汇总统计count 非na值的数量min、max 计算最小值和最大值idxmin、idxmax 计算能够获取到最大值和最小值得索引值quantile 计算样本的分位数(0到1)sum 值的总和me...原创 2018-09-01 19:58:38 · 2325 阅读 · 0 评论 -
Python 计算程序运行时间的几种方法
方法1import datetimestarttime = datetime.datetime.now()#long runningendtime = datetime.datetime.now()print (endtime - starttime).seconds方法 2start = time.time()run_fun()end = time.tim...原创 2018-09-03 19:06:45 · 3599 阅读 · 1 评论 -
【Python爬虫】如何获得自己浏览器的User-Agent
获得浏览器User-Agent的方法:1. 在地址栏中输入:about:version(推荐方法,因为最好用啊)2. 地址栏中输入:javascript:alert(navigator.userAgent)3. 另附一个可以直接在线获取的网站: 点开即可 :http://www.useragentstring.com/ ...原创 2018-09-03 16:32:58 · 3050 阅读 · 0 评论 -
【Python提高】迭代器,以及对生成器(Generator)以及yield关键字的理解
要讲生成器,不得不说的一个东西就是迭代器了,所以先说一下迭代器。迭代器迭代,很简单,就是重复一个操作多次嘛。迭代器(Iterator)是一个对象,它的工作是遍历并选择序列中的对象,它提供了一种访问一个容器(container)对象中的各个元素,而又不必暴露该对象内部细节的方法。通过迭代器,开发人员不需要了解容器底层的结构,就可以实现对容器的遍历。由于创建迭代器的代价小,因此迭代器通常被...原创 2018-09-05 20:05:39 · 273 阅读 · 0 评论 -
Python Pandas数据分析中常用方法
目录读取写入文件选择数据计算数据缺失值处理查看数据分析数据相关性删除数据合并数据修改数据官方教程读取写入文件官方IO 读取 写入 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json ...转载 2018-09-08 14:46:51 · 1304 阅读 · 0 评论 -
Pandas中Dataframe的索引.ix,.iloc,.loc的使用以及区别
pandas中索引的使用定义一个pandas的DataFrame对像import pandas as pddata = pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]},index=["a","b","c"])data A B Ca 1 4 7b 2 5 8c 3 6 9...转载 2018-09-08 14:31:26 · 1409 阅读 · 0 评论 -
Pandas读取文件时报错Initializing from file failed
当在用Python的Pandas库进行读取csv文件,出现了以下错误时:Traceback (most recent call last): File "D:/Pycharm/PythonSpider/HelloWorld.py", line 18, in <module> shangHai = pd.read_csv('链家上海租房信息.csv') File "...原创 2018-09-08 14:27:30 · 8127 阅读 · 1 评论 -
Seaborn 的示例数据集(load_dataset)
相信大家在学习GroupBy,或者数据透视表时,都有可能会碰到类似下面的一行代码:import seaborn as snsplanets = sns.load_dataset('planets')然后就可以发现planets已经存储了数据了,那么这些数据到底是从哪里来的呢?我们查看一下load_dataset的docstring:In [54]: sns.load_data...原创 2018-09-08 13:33:16 · 37853 阅读 · 4 评论 -
【Python爬虫】简单的爬虫入门实战
下面的代码爬取了链家在上海的租房信息:URL:https://sh.lianjia.com/zufangimport requestsimport timeimport refrom lxml import etree# 获取某市区域的所有链接def get_areas(url): print('start grabing areas') headers = ...原创 2018-09-06 20:01:58 · 1840 阅读 · 0 评论 -
【机器学习】【数据处理】Pandas基础知识
本宝宝只是为了方便以后自己学习方便,有错误的地方还请大家谅解咯。而且我经常用的是Ipython1.1 安装Pandas安装Pandas之前需要确保操作系统之中还有Numpy。当然,如果有Anacoda,Pandas是已经下载安装完成了的。安装方法:1.打开cmd,进入到pip所在文件下,pip install pandas,耐心等待就好啦 2.如果有Pycharm的话...原创 2018-05-09 11:31:37 · 404 阅读 · 0 评论