爬虫
a_botui
这个作者很懒,什么都没留下…
展开
-
简易爬虫_京东
request简易爬虫——京东数据# -*- coding=utf-8 -*-import requestsimport jsonimport refrom bs4 import BeautifulSoupimport pymysqlclass SpiderJd: def __init__(self): self.header = { 'Content-Type': 'text/html; charset=UTF-8',原创 2021-11-11 14:30:51 · 662 阅读 · 1 评论 -
scrapy爬取——阿里招聘信息
scrapy爬取——阿里招聘信息爬取网站地址:https://job.alibaba.com/zhaopin/positionList.htm1.创建项目进入项目目录输入cmd进入都是窗口创建项目,默认普通爬虫框架分析页面找到network中的数据出口2.爬虫伪装爬虫规则(concurrent)改为False,将network中的user_agent(浏览器伪装)填写网页中的user_agent3.定制爬取策略从信息页面可以看出总页数和总记录条数,在提取信息的的页面可直接查询全部记原创 2021-08-01 18:17:24 · 448 阅读 · 0 评论