- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 【机器学习】特征工程多特征值序列化数值化独热编码处理(LabelEncoder, pd.factorize())
多特征值序列化数值化独热编码处理当我们在运用某些模型时,比如在Scikit-learn中,它要求数据都得是numberic(数值型),若是文本类型就无法进行训练。那么在这种情况下,我们就应该先对数据进行序列化数值化:下面是几种在Python中数值化的方法:1. 自然数编码 : a) 使用sklearn中的LabelEncoder()方法,转换为数值型特征 ...
2018-09-15 16:01:04 5477 2
原创 Python for Data Science(Python数据科学):您可能忘记的8个概念
Python for Data Science(Python数据科学):您可能忘记的8个概念目录Python for Data Science(Python数据科学):您可能忘记的8个概念1.单行列表理解2.Lambda函数3.Map,Filter和Reduce函数MapFilterReduce4. Arange和Linspace函数ArangeLins...
2018-09-24 12:50:43 2752
转载 K-近邻算法(史诗级干货长文)
本文转自非常优秀的一位博主:Jack-Cui : http://blog.csdn.net/c406495762 一 简单k-近邻算法 本文将从k-邻近算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集,对代码进行了详细的注释。除此之外,本文也对sklearn实现k-邻近算法的方法进行了讲解。实战实例:电影类别分类、约会网站配对效果判定...
2018-09-18 22:53:28 20456 3
原创 查看DataFrame输出数据print出......省略号
问题描述:当我们用DataFrame查看数据时,经常发生这样的事,当你想查看某一列或行数据的时候,却发现被省略输出了,然后还需要单独打印出那一列或行,这就很不方便。如图:解决方法:只需要插入一段代码就好:import pandas as pdpd.set_option('display.max_rows',1000) # 具体的行数或列数可自行设置pd....
2018-09-15 15:39:58 4695 1
原创 Sklearn提供的常用标准数据集
Sklearn 数据集名称 调用方式 适用算法 数据规模 小 波士顿房价数据集 load_boston() 回归 506*13 数 鸢尾花数据集 load_iris() 分类 150*4 据 糖尿病数据集 load_diabetes() 回归 442*10 集 ...
2018-09-14 22:28:26 2913
原创 Pycharm绘图时显示额外的“figure”浮窗
问题:现在默认的Pycharm绘图时,都会出现下面的情况:不能弹出如下图所示的“figure”窗口解决方法:这是因为PyCharm在本windows中开放它。具体操作步骤如下所示: 1、“File--->Settings--->Tools--->Python Scientific"找到“Python Scientific”,去除右边候选框中的勾号...
2018-09-13 16:29:00 16372 9
转载 Python图像处理库PIL的ImageFilter模块介绍
Python图像处理库PIL的ImageFilter模块介绍ImageFilter模块提供了滤波器相关定义;这些滤波器主要用于Image类的filter()方法。一、ImageFilter模块所支持的滤波器当前的PIL版本中ImageFilter模块支持十种滤波器:1、 BLURImageFilter.BLUR为模糊滤波,处理之后的图像会整体变得模糊。例子:>&...
2018-09-13 15:03:49 5605
原创 Python 特别棒的一个画图表的库 ——Pyecharts
Pyecharts:http://pyecharts.org/#/zh-cn/prepare
2018-09-10 19:06:33 4348
原创 预知未来 Python 中的__future__模块(from __future__ import ***)
最近在学习数据挖掘时,遇到了一行代码:from __future__ import print_function可能大家有时在研读代码的时候也会遇到这样的一类代码(from __future__ import ***)那么这是什么意思呢?其实这是引用了__future__模块,我们知道,Python就现在而言有Python2和Python3,反正Python也是在一直更新着的,...
2018-09-10 18:45:30 673
转载 Python Pandas数据分析中常用方法
目录读取写入文件选择数据计算数据缺失值处理查看数据分析数据相关性删除数据合并数据修改数据官方教程读取写入文件官方IO 读取 写入 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json ...
2018-09-08 14:46:51 1298
转载 Pandas中Dataframe的索引.ix,.iloc,.loc的使用以及区别
pandas中索引的使用定义一个pandas的DataFrame对像import pandas as pddata = pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]},index=["a","b","c"])data A B Ca 1 4 7b 2 5 8c 3 6 9...
2018-09-08 14:31:26 1400
原创 Pandas读取文件时报错Initializing from file failed
当在用Python的Pandas库进行读取csv文件,出现了以下错误时:Traceback (most recent call last): File "D:/Pycharm/PythonSpider/HelloWorld.py", line 18, in <module> shangHai = pd.read_csv('链家上海租房信息.csv') File "...
2018-09-08 14:27:30 8121 1
原创 Seaborn 的示例数据集(load_dataset)
相信大家在学习GroupBy,或者数据透视表时,都有可能会碰到类似下面的一行代码:import seaborn as snsplanets = sns.load_dataset('planets')然后就可以发现planets已经存储了数据了,那么这些数据到底是从哪里来的呢?我们查看一下load_dataset的docstring:In [54]: sns.load_data...
2018-09-08 13:33:16 37817 4
原创 【Python爬虫】简单的爬虫入门实战
下面的代码爬取了链家在上海的租房信息:URL:https://sh.lianjia.com/zufangimport requestsimport timeimport refrom lxml import etree# 获取某市区域的所有链接def get_areas(url): print('start grabing areas') headers = ...
2018-09-06 20:01:58 1839
转载 【Python爬虫】爬虫实战
今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)OWechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆...
2018-09-06 19:28:14 1305
原创 【Python提高】迭代器,以及对生成器(Generator)以及yield关键字的理解
要讲生成器,不得不说的一个东西就是迭代器了,所以先说一下迭代器。迭代器迭代,很简单,就是重复一个操作多次嘛。迭代器(Iterator)是一个对象,它的工作是遍历并选择序列中的对象,它提供了一种访问一个容器(container)对象中的各个元素,而又不必暴露该对象内部细节的方法。通过迭代器,开发人员不需要了解容器底层的结构,就可以实现对容器的遍历。由于创建迭代器的代价小,因此迭代器通常被...
2018-09-05 20:05:39 272
原创 Python 计算程序运行时间的几种方法
方法1import datetimestarttime = datetime.datetime.now()#long runningendtime = datetime.datetime.now()print (endtime - starttime).seconds方法 2start = time.time()run_fun()end = time.tim...
2018-09-03 19:06:45 3593 1
原创 【Python爬虫】如何获得自己浏览器的User-Agent
获得浏览器User-Agent的方法:1. 在地址栏中输入:about:version(推荐方法,因为最好用啊)2. 地址栏中输入:javascript:alert(navigator.userAgent)3. 另附一个可以直接在线获取的网站: 点开即可 :http://www.useragentstring.com/ ...
2018-09-03 16:32:58 3042
原创 【Pandas数据分析】Pandas 统计特征函数和统计作图函数(最简单的数据探索入门)
基本统计特征函数下面所说的统计特征函数主要作为Pandas的对象DataFrame或Series的方法出现。describe 针对Series或个DataFrame列计算汇总统计count 非na值的数量min、max 计算最小值和最大值idxmin、idxmax 计算能够获取到最大值和最小值得索引值quantile 计算样本的分位数(0到1)sum 值的总和me...
2018-09-01 19:58:38 2321
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人