![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
告诉我怎么起名
这个作者很懒,什么都没留下…
展开
-
什么是爬虫
要想爬虫,必须要先找数据源。这个数据源可以是web 、 App、 应用 总之必须是有意义的数据其次要把数据源下载下载,这里就需要下载器,下载器的需要考验它的性能,即下载的快不快,还有模拟,即模拟服务器登录等操作,还要考虑分布式,即将爬虫任务分配给大量电脑来爬取,而且不能总是用同一个ip地址去爬,会被封。接着就需要分析器 。这里就需要html来分析,或者是正则。接着将数据存在数据库或磁盘中...原创 2019-06-14 22:39:29 · 106 阅读 · 0 评论 -
Xpath提取网页数据
更简单高效的HTML数据提取-Xpath本文地址:https://www.jianshu.com/p/90e4b83575e2XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。相比于BeautifulSoup,Xpath在提取数据时会更加的方便。官方文档地址:https://lxml.de/tutorial.html安装在P...转载 2019-08-24 15:21:48 · 365 阅读 · 0 评论 -
上海堡垒评论分析和词云图
教学视频1教学视频2import requestsimport jsonimport csvimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport jiebafrom wordcloud import WordCloud#设置sns....原创 2019-08-22 15:33:40 · 180 阅读 · 0 评论 -
HTML解析库BeautifulSoup4
HTML解析库BeautifulSoup4本文链接:https://www.jianshu.com/p/e9255c446a77BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。BeautifulSoup也是有官方中文文档的:https://www.crummy.com/softwar...转载 2019-08-23 15:52:16 · 96 阅读 · 0 评论