以网络爬虫为例,网络爬虫是一个自动提取网页的程序,
爬虫是搜索引擎的第一步,也是最容易的一部。(网页搜索,建立索引,查询排序)
用C/C++。效率高,速度块,适合通用搜索引擎做往往爬取。但是它的缺点也特别明显:
开发慢,写起来又臭又长的。
而python无论在数据分析还是在脚本自动化编写尚都是简单,易学的。良好的文本处理能力可以方便网页内容的细致提取
但效率不识很高 ,适合少量网站的聚焦爬取。
并且python对于LInux和Windows都有不错的支持,首先下载Numpy和S磁盘用两个专为数据分析而准备的
扩展包,使用于科学计算和数值拟合。
那么设计一个简单的网络爬虫那些条件呢:
1,统计利器R语音获取数据进行分析
2.广度优先和深度优先算法
3,import mysqldb数据库。