爬虫
告诉我怎么起名
这个作者很懒,什么都没留下…
展开
-
什么是爬虫
要想爬虫,必须要先找数据源。这个数据源可以是web 、 App、 应用 总之必须是有意义的数据 其次要把数据源下载下载,这里就需要下载器,下载器的需要考验它的性能,即下载的快不快,还有模拟,即模拟服务器登录等操作,还要考虑分布式,即将爬虫任务分配给大量电脑来爬取,而且不能总是用同一个ip地址去爬,会被封。 接着就需要分析器 。这里就需要html来分析,或者是正则。 接着将数据存在数据库或磁盘中 ...原创 2019-06-14 22:39:29 · 114 阅读 · 0 评论 -
Xpath提取网页数据
更简单高效的HTML数据提取-Xpath 本文地址:https://www.jianshu.com/p/90e4b83575e2 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 相比于BeautifulSoup,Xpath在提取数据时会更加的方便。 官方文档地址:https://lxml.de/tutorial.html 安装 在P...转载 2019-08-24 15:21:48 · 375 阅读 · 0 评论 -
上海堡垒评论分析和词云图
教学视频1 教学视频2 import requests import json import csv import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import jieba from wordcloud import WordCloud #设置 sns....原创 2019-08-22 15:33:40 · 186 阅读 · 0 评论 -
HTML解析库BeautifulSoup4
HTML解析库BeautifulSoup4 本文链接:https://www.jianshu.com/p/e9255c446a77 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。 BeautifulSoup也是有官方中文文档的:https://www.crummy.com/softwar...转载 2019-08-23 15:52:16 · 105 阅读 · 0 评论