python数据分析要不要爬虫_python爬虫和数据分析是不是很零散？好的采集分析一条龙怎么做？...-CSDN博客

好的采集就是Scrapy或是PySpider爬虫框架。碰到搞不定的ajax,那一般是Scrapy+Splash。

对于Scrapy框架，大多数觉得难学，因为他是类似在Dos里大量写命令一般。然后他整个文件组织架构可能不太理解吧。比如scrapy statproject pachong，生成项目文件，可以查看官方的许多指令。大概这样。

用手机当WIFI网速不太好。大概样子就这样。。碰到搞不定的ajax。就是Scrapy+Splash。Salash就是一个无头浏览器。js渲染快。缺点就是在windows上安装特别麻烦。而且里面是写LUA语言，可能对大多数不太熟悉的人依然比较麻烦。

低配版就是Scrapy+selenium.用selenium去控制自己电脑上的浏览器。缺点就是速度慢。就像一个好的CPU配了一个不是很好的显卡。

注意pip 安装完了selenium，还要安装一个chromedriver驱动器。在官网下载。如果是在windows里用的是chrome64位的浏览器，在官网下载驱动时，是找不到chrome64的。但是用32的也没问题。还有最好驱动程序最好和自己的python.exe在同一个文件之下。以后编程时方便，可以省略写路径。像这样

在VBA里写处理ajax类型的爬虫，其实也是差不多的。用VBA控制Webbrowser控件(内核是windwos自带的IE浏览器内核)

假如分析Scrapy整个框架，大概分成五个模块。URL管理模块，HTML下载模块，HTML解析模块。数据存储模块。最后是整个爬虫调器。大概就这样了。自己慢慢研究，如果自己写常规爬虫，能仿造Scrapy的这种框架，用一个Class去写，也能写成同样五个部分。那基本就算大概掌握整个爬虫构造思路了。

最后至于Python里的分析。最好下载完数据，能用python字典装起来，那就很容易在Pandas里生成表格与出一些图表。大概就这样。数据分析学好numpy+pandas+(熟练两三个图表库差不多了。) 数据存储比较简单，看你习惯用什么数据库了。我一般用access或是SQLite。python自带就有上面的数据库驱动的模块。