Python for Data Analysis
文章平均质量分 95
哈士奇说喵
我的目标是星辰大海啊~
展开
-
pandas入门(持续更新)
Python 2.7 IDE Pycharm Anaconda2 应该每天离目标更近一点首先推荐一下IDE,用的最顺手的是Pycharm,再配合anaconda2,简直完美,什么科学计算库都有,numpy,scipy,matplotlib应有尽有,乃大杀器有木有,对我们这种小白来说,什么乱七八糟依赖包好蛋疼有木有,有了Pycharm+anaconda2,我都被自己机智哭了。。。。 pyc原创 2016-07-04 20:20:45 · 1778 阅读 · 0 评论 -
机器学习之K-近邻算法(Python描述)实战百维万组数据
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1建议先阅读: 1.(大)数据处理:从txt到数据可视化 2.机器学习之K-近邻算法(Python描述)基础 3. 教程来自于《机器学习实战》第二章 4. 代码及数据github@Mini-Python-Project中的DataSource文件夹下有个压缩包前言通过基础的原创 2016-09-08 14:02:52 · 2456 阅读 · 0 评论 -
总结:数据清洗的一些总结
前言 在整理项目的时候发现清洗过程是一个非常细节的过程,几乎贯穿始终,也是后续步骤特征提取等的前置条件,所以整理如下,因为展开较大,所以我已近上传mindnode脑图和原始照片尺寸,请在这里下载数据清洗脑图原版致谢机器学习基础与实践(一)—-数据清洗箱形图为什么能检测异常值,原理是什么?五个步骤教你数据清洗数据清洗基本概念标准化矩阵 协方差矩阵 相关系数矩阵数据挖掘数据预处理之:异常值检测数据原创 2017-08-25 14:31:54 · 4906 阅读 · 0 评论 -
数据向:我到底是谁的歌迷?
MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言 发现自己有时候比挖掘别人来的更加有意义,自己到底喜欢谁的歌,自己真的知道么?习惯不会骗你搭建爬虫环境1.安装seleniumpip install selenium# anaconda环境的可用conda install selenium# 网速不好的可用到h原创 2017-07-10 02:01:53 · 4530 阅读 · 9 评论 -
NumPy快速入门
Python 2.7 IPython 4.1.2关于NumpyNumpy是Python的一个矩阵类型,提供大量矩阵处理函数,内部通过C实现。包含两种数据结构,数组array和矩阵matrix,其实就是array而已构建数组array通过tuple构建arrayIn[1]: from numpy import *In[2]: yuanzu = (4,5,6)In[3]: ll = arr原创 2016-09-03 17:19:28 · 1302 阅读 · 0 评论 -
解决:将.mat文件保存到.txt不带有科学计数法e-0
Python 2.7 IDE Pycharm 5.0.3 Matlab 2014a遇到问题在进行数据处理的时候,比如说我正好遇到KNN算法的python描述,但我的数据集是matlab的.mat文件,我想要用python处理数据的话,mat是不可行的,那怎么办呢?解决思路python能读入的是txt,现在数据很多也是存在txt中的(以我接触的一些数据来说),python读取txt是非常方便的,而原创 2016-09-08 13:53:20 · 8379 阅读 · 0 评论 -
豆瓣电影分析报告:大陆和港台到底差(cha)在哪里?
Python 2.7 IDE Pycharm 5.0.3 PyExcelerator 0.6.4a 可视化 Plotly图片要是挂了请看这里此文备份链接前言 在上次爬完豆瓣的东西后,感觉锻(zhuang)炼(yi)能(xia)力(bi)之外,貌似并没有实际用处,说实话,我宁可去网页一页页浏览电影也不愿意面对这苍白的文字。所以,分析一下比较好。目的 根据豆瓣所有的电影,分析各国各地区原创 2016-10-10 22:10:45 · 9247 阅读 · 1 评论 -
用机器学习来帮助吃货的你找最合适的聚点(Python描述)
Python 2.7 Pycharm 5.0.3 Geopy 1.11 图形展示 地图无忧-网页版你可能需要知道1.机器学习之K-means算法(Python描述)基础 2.经纬度地址转换的方法集合(Python描述) 3.想要知道怎么实现的可能还要python等相关知识 4.看官随意前言 这次厉害了,我爬出了哈尔滨市TOP285家好吃的店,包括烧烤的TOP,饺子的TOP,酱骨原创 2016-09-19 11:28:59 · 2417 阅读 · 0 评论 -
(大)数据处理:从txt到MySql的数据预处理迁徙
Python 2.7 IDE Pycharm 5.0.3 MySQL 5.7 MySQL Workbench 6.3前言学长毕业刚好在整大数据,从数据堂花了大价钱买的一个月的北京出租车GPS数据,一天大概11G,一个月就是350G左右,而且数据全部存在txt中,根本无法进行分析处理,而且重复数据非常多,这就需要把txt写到数据库中在进行操作了,于是,我尝试了自己的python。。。。。猜一原创 2016-09-01 19:54:46 · 1206 阅读 · 1 评论 -
(大)数据处理:从txt到数据可视化
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1 本次可视化数据由机器学习实战倾情提供(就是盗用了数据和改了一点点程序更加易读)前言将txt中数据进行可视化展示用于分析需求你只需要知道 每行的第一列数据是飞行里程,第二列是玩游戏所占百分比时间,第三列是每年吃的冰激凌消耗量,第四列是某个xx觉得这类人的适合约会的感兴原创 2016-09-08 13:52:33 · 4255 阅读 · 1 评论 -
机器学习之K-近邻算法(Python描述)基础
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0前言总算迈入机器学习第一步,总比原地踏步要好。什么是K-近邻?一句话总结,物以类聚,人以群分,更‘靠近’哪一个点,就认为它属于那一个点。以一篇硕士论文截图说明Knn算法思想根据这个伪代码流程,我们就可以使用python进行算法重构了,分三步,一算距离,二排序,三取值实现Knn基础代码第一部分,被调函数,在主程序中原创 2016-09-03 20:03:22 · 1057 阅读 · 0 评论 -
机器学习之K-means算法(Python描述)基础
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1可以扩展阅读: 1.(大)数据处理:从txt到数据可视化 2.机器学习之K-近邻算法(Python描述)基础 3.机器学习之K-近邻算法(Python描述)实战百维万组数据数据及参考代码 github地址,下载压缩包,ch10前言从程序上读懂每一行,才是了解算法的开始。原创 2016-09-14 16:26:40 · 2804 阅读 · 1 评论