数据分析
文章平均质量分 74
王十二的
这个作者很懒,什么都没留下…
展开
-
用Python 做文本挖掘的流程
收集数据数据集。如果是已经被人做成数据集了,这就省去了很多麻烦事抓取。这个是 Python 做得最好的事情,优秀的包有很多,比如 scrapy,beautifulsoup 等等。预处理1.去掉抓来的数据中不需要的部分,比如 HTML TAG,只保留文本。结合 beautifulsoup 和正则表达式就可以了。pattern.web 也有相关功能。2.处理编码问题。没转载 2014-06-07 20:53:29 · 3708 阅读 · 1 评论 -
文山市房价分析(一)数据收集
一、数据来源数据来源关系到分析结果的准确性和权威性,因此数据源主要从以下四个网站抓取:搜房网安居客58同城赶集网搜房网和安居客分别是中国站长之家的房产类网站排名的1和2,58同城和赶集网是运营比较好的综合性服务网站。二、主要抓取的数据网站上的数据是比较复杂的,主要抓取新房、二手房和出租房的主要信息。2.1新房 小区 房价(元/平方米) 出售数量 2.2二手房原创 2016-11-09 23:41:38 · 813 阅读 · 0 评论 -
Python房价可视化分析的思路及实战
作者利用网络爬虫抓取了安居客、房天下和58同城这几个网站上房价的数据,利用数据分析对文山市的房价情况进行的简单的分析。原创 2016-11-28 22:32:07 · 14659 阅读 · 24 评论