Python
TK_HST
Follow your heart
展开
-
Python数据分析之房价预测
学习数据分析的第一次练手项目。从网上爬取关于房价的相关数据属性来分析房价,并且基于一些属性来预测房价,使用的是网格搜索算法。相关的数据文件和完整代码可以从文末获取。GridSearchCV介绍: 能够系统地遍历多种参数组合,通过交叉验证确定最佳效果参数;他能够自动调参,只要把参数输进去,就能给出最优化的结果和参数,适合于小数据集。一、需要的相关库: &nbs...原创 2019-07-22 14:55:23 · 9619 阅读 · 14 评论 -
Python3数据存储常用形式:TXT、CSV、Excel、JSON
常见的四种数据保存形式从网络上爬取所有需要的数据,用解析器解析出所有数据之后,接下来就是存储数据。常用到的存储方式可以保存为文本文件或数据库中,文本存储形式多种多样,下面先介绍文件存储的方式!一、TXT文本存储将数据保存到TXT文本这种方法操作简单高效,而且TXT文本兼容性很好,基本兼容任何平台,是一种最基本的保存数据的方法。但是不利于检索。存储方式:#第一种方式:with open(...原创 2019-02-13 17:54:15 · 1197 阅读 · 0 评论 -
Python3简单爬虫:爬取猫眼评分top100电影
Python3:用xpath库爬取猫眼评分top100电影在看《Python3 网络爬虫开发实战中》一书学习时,书中第三章例子用re正则匹配来爬取电影的所需数据,虽然爬取速度快,效率好,但是可能在写匹配规则时一点疏忽就会导致匹配失败提取不到所需数据,因此本次用xpath来提取内容!本次所需了解的库:xpath库语法:http://www.w3school.com.cn/xpath/x...原创 2019-02-02 00:03:38 · 2633 阅读 · 0 评论 -
Python3学习笔记01—正则表达式常见匹配方式
Python3爬虫常见的正则匹配规则正则表达式是在爬虫中比较常见且效率较好,提取信息较快的一种信息提取手段,是处理字符串的强大工具,所以学习正则表达式对于网络爬虫来说无疑是一把利器!推荐一个正则表达式在线生成的网页:https://www.sojson.com/regex/可以检测一下自己写的正则表达式是否正确!一些常见的匹配规则: 常用的匹配规则 \w匹配数字字母下划线\...原创 2019-01-26 00:53:20 · 345 阅读 · 0 评论 -
Python3简单爬虫实战:爬取赶集网招聘岗位信息
爬取赶集网软件工程师岗位的招聘信息爬取目的:利用Python3爬虫来爬取赶集网的部分职业招聘信息并保存到CSVPython的第三方库有很多,一般的爬虫学习中需要用到什么库再去学习所需库的语法,这样才记得牢固而且效率高,不会浪费时间在用不上的库的学习上本次需要用到的库:requests库:http://docs.python-requests.org/zh_CN/lates...原创 2019-01-25 16:30:24 · 2613 阅读 · 4 评论