爬虫记录
py爱好者~
失去了你的我,获得了很多很多
展开
-
京东生鲜评论数据获取
京东生鲜评论数据获取原创 2024-01-26 17:36:21 · 290 阅读 · 0 评论 -
爬取新发地菜价信息并保存到csv文件
import requests import csv import random import time from fake_useragent import UserAgent UA=UserAgent().random url = "http://www.xinfadi.com.cn/getPriceData.html" dic = { "limit": "", "current": "", "pubDateStartTime": "", "pubDateEndTime.原创 2022-05-06 23:48:24 · 281 阅读 · 1 评论 -
爬虫scrapy框架的安装和基本操作使用
爬虫scrapy框架的安装和基本操作使用原创 2022-03-08 18:54:56 · 17 阅读 · 0 评论 -
爬取所有糗图图片
用正则表达式爬取所有的糗图图片 非常简单,废话不多说,上代码 import requests import re import os if __name__=='__main__': #指定页面url与UA伪装、建立一个文件夹 if not os.path.exists('./qiutu'): os.mkdir('./qiutu') headers = { 'User Agent': 'Mozilla/5.0 (Windows NT 10原创 2021-11-02 16:39:22 · 156 阅读 · 0 评论 -
爬取秦皇岛天气情况
一.本次用的是bs4方法解析 二. 上源代码 import requests import re import time import xlwt from bs4 import BeautifulSoup import pandas as pd from fake_useragent import UserAgent date_box = [] max_temp = [] min_temp = [] weh = [] wind = [] for year in range(2011,2022):原创 2021-10-29 18:53:26 · 224 阅读 · 0 评论 -
爬取二手房名称
本次主要用xpath方法确定所需标签的准确位置 上源代码 from lxml import etree import time import requests import random headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36' ...原创 2021-10-29 18:45:30 · 68 阅读 · 0 评论 -
爬取肯德基餐厅查询
1.需求 爬取肯德基餐厅查询指定地点的餐厅数据,并实现持续化存储。 2.具体代码实现 import requests import json import time if __name__=='__main__': # 指定url url='http://www.kfc.com.cn/kfccda/storelist/index.aspx' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows原创 2021-10-24 11:23:47 · 304 阅读 · 1 评论 -
爬取豆瓣电影分类排行榜
import requests if __name__ == "__main__": url1 = 'https://movie.douban.com/j/chart/top_list' param = { 'type':'24', 'interval_id':'100:90', 'action':'', 'start':'0',#表示从库中第几部电影去取 'limit':'100',#表示一次取几个 .原创 2021-10-23 23:39:08 · 539 阅读 · 1 评论 -
破解百度翻译
-需求:破解百度翻译 -post请求(携带了参数) -响应数据是一组json数据 import requests import json if __name__=='__main__': # 指定url post_url='https://fanyi.baidu.com/sug' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) App..原创 2021-10-23 22:21:20 · 140 阅读 · 0 评论 -
网页采集器
UA:User-Aqent(请求载体的身份标识) UA伪装:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,则说明该请求是一个正常的请求。 如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务器就很有可能拒绝请求。 UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 import requests if __name__=="__main__": #UA伪装:将对应的User-Agent封装到一个字..原创 2021-10-23 21:05:14 · 73 阅读 · 0 评论 -
爬取搜狗首页的页面数据
如何使用:(request模块的编码流程) -指定url -发起请求 -获取响应数据 -持久化存储 # 需求:爬取搜狗首页的页面数据 import requests if __name__=='__main__': # 指定url url='https://www.sogou.com/' # 发起请求 # get方法会返回一个响应对象 response=requests.get(url=url) # 获取响应数据,te..原创 2021-10-23 20:30:58 · 744 阅读 · 0 评论