爬虫
文章平均质量分 58
醉舞经阁半卷书1
这个作者很懒,什么都没留下…
展开
-
scrap使用
一:使用import scrapyfrom stock.items import StockItem, StockDetailItemclass ThsSpider(scrapy.Spider): name = 'ths' handle_httpstatus_list = [401] allowed_domains = ['q.10jqka.com.cn', 'stockpage.10jqka.com.cn'] base_url = "https://q.10jqk原创 2022-02-22 23:20:41 · 422 阅读 · 0 评论 -
python re模块
为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵原创 2022-02-05 18:02:50 · 174 阅读 · 0 评论 -
python的urllib学习
1.基本方法urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)- url: 需要打开的网址- data:Post提交的数据- timeout:设置网站的访问超时时间直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要dec原创 2022-02-05 17:58:12 · 74 阅读 · 0 评论