爬虫
半两风
Python
展开
-
2020-10-22今日头条爬虫更新
今日头条爬取街拍小姐姐图片--20201022今天发现今日头条有了新的反扒机制,导致之前的爬虫无法执行,现更新## 导入需要的包import jsonimport osimport timefrom hashlib import md5from urllib.parse import urlencodeimport reimport requestsfrom bs4 import BeautifulSoupfrom requests.exceptions import Reque原创 2020-10-22 15:14:10 · 859 阅读 · 0 评论 -
requests实现爬取bilibili小视频
import os import reimport timeimport requestsimport randomfrom urllib3.request import urlencode定义一个函数,获取网址def get_page(next_offset): params = {'page_size': 10,'next_offset': next_offs...原创 2020-03-29 23:18:03 · 621 阅读 · 0 评论 -
beautiful_获取中国天气网数据
import reimport osimport timeimport pandas as pdimport requestsfrom bs4 import BeautifulSoupimport random# 完整代码url = 'http://www.weather.com.cn/weather/101010100.shtml'header = {'User-Agen...原创 2020-03-29 23:11:42 · 147 阅读 · 0 评论 -
beautiful_天眼查
import reimport osimport timeimport pandas as pdimport requestsfrom bs4 import BeautifulSoupimport random# 这是没有登录的状态下爬取的数据,如果需要更多,则需要添加账号登录后 的cookie参数信息。当然也会增加封号的风险url = 'https://m.tianyan...原创 2020-03-29 23:10:45 · 244 阅读 · 0 评论 -
requests_猫眼电影
import re import osimport timeimport randomimport requestsimport pandas as pd# 方法一,用于网页翻页有规律的情况,如0,10,20,30,40# 存储数据 datalist = []for i in range(11): #爬取10页 print('正在爬取第%s页'%i) u...原创 2020-03-29 23:09:34 · 187 阅读 · 0 评论 -
requests_爬取链家面积和价格
#导入模块import osimport reimport pandas as pdimport randomimport timeimport requests爬取数据# 存储datalist = []for i in range(1,11): # 爬取10页 print('正在爬取第%s页'%i) url = 'https://gz.lianjia....原创 2020-03-29 23:08:13 · 250 阅读 · 0 评论 -
selenium实现动态网页爬取
# 动作链# 反爬的一种手段,通过移动图片来进行反爬from selenium import webdriver # 声明一个浏览器对象from selenium.webdriver import ActionChainsimport timeimport pandas as pdfrom bs4 import BeautifulSoupfrom selenium.webdriv...原创 2020-03-29 23:06:34 · 1044 阅读 · 0 评论 -
urllib实现链家图片爬取
导入模块import reimport osimport urllib.request# urllib 库# requests:http请求模块,用来模拟请求# error: 异常处理模块,如果出现请求出错,可以捕捉异常# parse:提供url处理方法,如拆分,解析,合并等# robotparse:识别网站的robots.txt文件,判断哪些网站可以爬取# 发送请求的两...原创 2020-03-29 23:04:46 · 399 阅读 · 1 评论 -
BeautifulSoup实现豆瓣电视评论
#导入模块import reimport osimport timeimport randomimport pandas as pdimport requestsfrom bs4 import BeautifulSoup#爬取数据header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW...原创 2020-03-29 23:02:22 · 139 阅读 · 0 评论 -
python爬虫_舌尖上的中国
#导入模块import reimport osimport timeimport randomimport requestsimport pandas as pdimport jiebafrom wordcloud import WordCloudfrom wordcloud import STOPWORDS # 停用词import matplotlib.pyplot as...原创 2020-03-29 23:00:49 · 359 阅读 · 0 评论 -
python爬虫_今日头条街拍照片
#导入模块import osimport reimport timeimport requestsimport pandas as pdfrom urllib3.request import urlencode #用于网址合并from bs4 import BeautifulSoupfrom hashlib import md5 # 用于对图片进行编码起名字#自定义...原创 2020-03-29 22:58:14 · 318 阅读 · 0 评论