![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
小虫子啊
这个作者很懒,什么都没留下…
展开
-
aiohttp模块实现多任务异步协程实现异步爬虫
import asyncio import time import aiohttp # 导入 aiohttp 模块, 使用该模块中的 ClientSession 类,实例化一个对象进行网络请求 urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/haha', 'http://127.0.0.1:5000/guagua' ] async def get_page(url): print('正在请求:'原创 2021-01-04 22:14:59 · 226 阅读 · 0 评论 -
数据分析之正则、bs4、xpath基础用法
聚焦爬虫:爬取页面中指定的页面内容。(ajax局部刷新的数据) 数据解析分类: - 正则 数据解析 - bs4 类 - xpath (*****) 通用性强,其他变成语言 也可以使用 数据解析原理: - 解析的局部文本内容都会在标签之前或者标签对应的属性中进行存储 正则 数据解析: # < div class ="thumb" > # < a href = "/article/123861730" target = "_blank" > # < im原创 2020-12-26 23:07:51 · 259 阅读 · 1 评论 -
requests知识点(1)
一、下载 requests 模块: pip install requests 二、基本使用流程 import requests # 1.定制url,既即将访问的url url = ‘www.sogou.com’ # 2.UA 伪装,既模拟浏览器访问 url ,可以去network中查找 user-agent后的内容就是。(定制请求头) headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, l原创 2020-12-21 16:36:03 · 135 阅读 · 0 评论