python数据分析要不要爬虫_python爬虫和数据分析是不是很零散?好的采集分析一条龙怎么做?...

好的采集就是Scrapy或是PySpider爬虫框架。碰到搞不定的ajax,那一般是Scrapy+Splash。

对于Scrapy框架,大多数觉得难学,因为他是类似在Dos里大量写命令一般。然后他整个文件组织架构可能不太理解吧。比如scrapy statproject pachong,生成项目文件,可以查看官方的许多指令。大概这样。

用手机当WIFI网速不太好。大概样子就这样。。碰到搞不定的ajax。就是Scrapy+Splash。Salash就是一个无头浏览器。js渲染快。缺点就是在windows上安装特别麻烦。而且里面是写LUA语言,可能对大多数不太熟悉的人依然比较麻烦。

低配版就是Scrapy+selenium.用selenium去控制自己电脑上的浏览器。缺点就是速度慢。就像一个好的CPU配了一个不是很好的显卡。

注意pip 安装完了selenium,还要安装一个chromedriver驱动器。在官网下载。如果是在windows里用的是chrome64位的浏览器,在官网下载驱动时,是找不到chrome64的。但是用32的也没问题。还有最好驱动程序最好和自己的python.exe在同一个文件之下。以后编程时方便,可以省略写路径。像这样

在VBA里写处理ajax类型的爬虫,其实也是差不多的。用VBA控制Webbrowser控件(内核是windwos自带的IE浏览器内核)

假如分析Scrapy整个框架,大概分成五个模块。URL管理模块,HTML下载模块,HTML解析模块。数据存储模块。最后是整个爬虫调器。大概就这样了。自己慢慢研究,如果自己写常规爬虫,能仿造Scrapy的这种框架,用一个Class去写,也能写成同样五个部分。那基本就算大概掌握整个爬虫构造思路了。

最后至于Python里的分析。最好下载完数据,能用python字典装起来,那就很容易在Pandas里生成表格与出一些图表。大概就这样。数据分析学好numpy+pandas+(熟练两三个图表库差不多了。) 数据存储比较简单,看你习惯用什么数据库了。我一般用access或是SQLite。python自带就有上面的数据库驱动的模块。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值