个人实战
文章平均质量分 64
程序小学生
好好学习 天天向上
展开
-
Python pandas处理csv文件
Python pandas处理csv文件工具:Pycharm,Win10,Python3.6.4现有上面这样一份CSV文件,我们要对其做如下处理1.第一列重新编序号从1开始2.第三列数字0改成243.第三列之后的数据带小数的精度都设为小数点后一位因为我们要对多个csv文件处理,所以事先把多个csv文件放在一个文件夹中,循环读取每个文件并对每个文件做以上处理。1.重新...原创 2019-04-28 16:09:07 · 2784 阅读 · 0 评论 -
Python 利用SVM,KNN,随机森林进行预测
Python 利用SVM,KNN,随机森林进行预测工具:Pycharm,Win10,Python3.6.4上图是我们的数据文件,最后一列是附近有无超市的标签,1代表有,-1代表没有。可以发现数据维度比较多,我通关计算相关系数提出相关性低的特征。data = pd.read_excel('data.xls')# print(data)column = data.columns....原创 2019-04-27 20:50:26 · 15789 阅读 · 9 评论 -
Python 微博奔驰事件爬虫
Python微博奔驰事件爬虫工具:Pycharm,Win10,Python3.6.4最近奔驰漏油事件成为大家讨论的热点,也频上热搜。我就来做了一下微博评论爬虫,看看大家对这件事情的看法。微博移动端相对好爬一些,且评论数据差不多,所以我们主要是针对微博移动端进行信息采集。我们打开网址看到如下信息评论量还是挺多的,所以我们要先获取该微博的链接,然后通过该微博去获取评论页。可以看...原创 2019-04-27 17:09:42 · 626 阅读 · 0 评论 -
Python链家租房信息爬虫和高德地图展示
Python链家租房信息爬虫和高德地图展示工具:Pycharm,Win10,Python3.6.4,高德API1.数据爬取首先我们明确要获取的信息。我们要北京的东城,西城,朝阳,海淀,丰台这5个地区的租房信息。打开链家租房网站,选择东城地区的第二页信息我们发现网址有如下规律下面就是分析页面,以东城为例,我们发现数据直接在源代码中,很简单,直接正则或者xpath获取即可。...原创 2019-04-15 12:19:50 · 2572 阅读 · 13 评论 -
python 决策树使用
决策树使用工具:Pycharm,win10,Python3.6.41.题目要求根据如下数据使用决策树算法进行预测。Roles Duration Audiobook Genre5 80 no Action15 120 yes Drama15 100 yes Action20 80 no Drama5 80 no Action12 115 yes ?2 180 yes ...原创 2019-04-14 20:22:48 · 426 阅读 · 0 评论 -
python 朴素贝叶斯算法使用
朴素贝叶斯算法使用工具:Pycharm,win10,Python3.6.41.题目要求根据如下数据使用朴素贝叶斯算法进行预测。Document Content Categoryd1 ball goal cart goal...原创 2019-04-13 20:58:05 · 1228 阅读 · 0 评论 -
python KNN算法使用
KNN算法使用工具:Pycharm,win10,Python3.6.41.题目要求现有数据如下,根据一些属性,选出适合向客户提供广告的方式,使用KNN算法,K为3.Age m/f Sales Channel20 f 10 E-mail30 m 90 Phone40 m 70 Post60 f 100 Phone20 m 30 E-mail30 f 40 E-mail...原创 2019-04-13 19:54:34 · 755 阅读 · 0 评论 -
Python 网页节点统计
Python 网页节点统计工具:Pycharm,win10,Python3.6.41.需求分析我们现在有一个文件夹wp,里面包含了下图的子文件夹,每个文件夹里面又包含了网页,每个网页可能指向其他网页。总计有5000多个网页。我们要构建一个网络图统计每个网页的出度,入度。2.实现代码以第一个文件里面的第一个网页为例,我们要如何获取这个网页包含了哪些子链接。获取第一个网页,打开...原创 2019-04-13 16:31:58 · 486 阅读 · 0 评论 -
Python列车信息爬虫
Python列车信息爬虫Python爬虫我已经写过很多了,其实很大部分都是在重复。所以这篇或者是以后的博客都不会从头到尾讲爬虫,只是会将之前没有遇到的问题给重点列出来。1.任务分析这是我们要爬取的网站,我们要做的就是输入出发地和目的地 然后点击提交按钮。例如输入上海,北京,点击提交即会出现这个如下页面。 这是有直达的情况,当然也有非直达的情况,例如大连和东莞。 所以...原创 2019-01-17 11:49:56 · 462 阅读 · 0 评论 -
Python英超联赛10年数据爬虫
英超联赛10年数据爬虫引言:今天对国外某足球网站进行爬虫,爬取英超联赛10年数据,主要包括比赛双方以及比分。1.网站分析网址:https://www.premierleague.com/results(需要科学上网)。我们要的信息主要是对战双方和第一粒进球的时间。右击查看源码没有我们要的信息,考虑是动态加载。F12打开开发者选项。找到了信息存放的网址https://footba...原创 2018-12-20 18:57:17 · 2888 阅读 · 0 评论 -
Python绘制堆叠柱状图
Python绘制堆叠柱状图有个朋友要求帮忙绘制堆叠柱状图,查阅了一些文档之后也算是完成了,只是一个小demo,下面我就记录一下。1.什么是堆叠柱状图与并排显示分类的分组柱状图不同,堆叠柱状图将每个柱子进行分割以显示相同类型下各个数据的大小情况。它可以形象的展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。效果图如下:2.数据展示...原创 2018-12-20 17:28:34 · 20773 阅读 · 0 评论 -
Python多线程爬虫
from gevent import monkey, joinall, spawnmonkey.patch_all()import requestsimport reimport osBASE_DIR = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'meizitu2')girl_list = []def...原创 2018-12-19 18:18:51 · 973 阅读 · 0 评论 -
调用百度地图API接口制作热力图
调用百度地图API接口制作热力图Python学了很久,也做了一些机器学习的demo,利用matolotlib库做过一些可视化。今天呢想尝试做一下热力图。先PO一张我最终效果图。因为数据原因,效果一般,但我们的目的还是达到了。下面就讲一下大致流程。1、数据准备我没有上千个CSV数据,一个CSV数据就代表一辆车一天内的情况。我们要做的就是这几千辆车某一天某一个时间段在地图上的热力图...原创 2018-11-20 22:53:20 · 8817 阅读 · 2 评论 -
豆瓣影评爬虫
豆瓣影评爬虫今天要爬取https://movie.douban.com/review/best/?start=0该网址的30条最受欢迎影评。我们可以看到影评比较长,需要展开才能完整显示。但是在网页源码中是没有显示完整影评的。所以我们考虑到这部分应该是异步加载的方式显示。所以打开网页的开发者选项,可以看到点击展开之后,多了一条full的网页。这个网页就包含了完整评论。我们观察到全...原创 2018-11-05 23:48:49 · 6079 阅读 · 3 评论 -
安居客爬虫+分析+回归
安居客爬虫+分析+回归工具:Pycharm,Win10,Python3.6.4这次我们要做的是安居客西安地区房源爬虫,然后数据分析,并做一个简单的回归分析。我们之前的爬虫和简单的数据分析已经说了很多了,这里我不再展开描述,我直接贴出结果。以上就是分析的结果。接下来我们要做一个关于房屋总价和单价的回归分析。其实我们爬下来的数据并不是很结构化,单价和总价有的是一个值有的是一...原创 2019-05-21 20:38:50 · 4300 阅读 · 1 评论