爬虫
文章平均质量分 58
醉舞经阁半卷书1
本人从事大数据工作多年,主要负责中间件的开发与运维工作,目前负责国内某云的几十万台中间件服务器的开发与运维
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrap使用
一:使用 import scrapy from stock.items import StockItem, StockDetailItem class ThsSpider(scrapy.Spider): name = 'ths' handle_httpstatus_list = [401] allowed_domains = ['q.10jqka.com.cn', 'stockpage.10jqka.com.cn'] base_url = "https://q.10jqk原创 2022-02-22 23:20:41 · 530 阅读 · 0 评论 -
python re模块
为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。 那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵原创 2022-02-05 18:02:50 · 239 阅读 · 0 评论 -
python的urllib学习
1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - data:Post提交的数据 - timeout:设置网站的访问超时时间 直接用urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要dec原创 2022-02-05 17:58:12 · 123 阅读 · 0 评论
分享