qq_34272745-CSDN博客

原创 selenium模拟12306登录

#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5from selenium import webdriverimport timefrom PIL import Imagefrom selenium.webdriver import ActionChains# 12306模拟登录过程# 使用selenium打开登陆界面，对当前selenium打开的界面截图# 对当前图片局部区域（验证码照片）

2020-09-21 09:21:20 189

原创 selenium 无头浏览器+规避检测

from selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keys# 实现无可视化界面from selenium.webdriver.chrome

2020-09-20 20:46:44 1257 2

原创 selenium模拟登录QQ空间

import pymysqlimport urllibimport requestsimport refrom selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.key

2020-09-20 20:32:16 181

原创 selenium之动作链

import pymysqlimport urllibimport requestsimport refrom selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.key

2020-09-20 20:12:30 196 1

原创 selenium简单操作

import pymysqlimport urllibimport requestsimport refrom selenium import webdriverfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keys# 加载selenium需要的驱动driver_path = r'D:\

2020-09-20 19:56:48 97

原创 aiohttp使用

import requestsimport reimport timefrom lxml import etree# 导入线程池模块对应的类from multiprocessing.dummy import Poolimport asyncio# 使用该模块中的一个ClienSession对象进行网络化请求import aiohttpstart = time.time()urls = [ 'www.baidu.com', 'www.csdn.com', 'www.bilibil

2020-09-03 19:58:14 211

原创单线程+异步协程爬虫

event_loop:事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行coroutine:协程对象，我们可以将协程对象注册到事件循环中，他会被事件循环调用。我们可以使用 async 关键字来定义一个方法，这个方法在调用时不会立即被执行，而是返回一个协程对象task:任务，它是对协程对象的进一步封装，包含了任务的各个状态。future:代表将来执行或还没有执行的任务，实际和 task 没有本质区别。async:定义一个协程。await:.

2020-09-03 19:14:58 168

原创爬取58二手房的放原标题

import requestsfrom bs4 import BeautifulSoupimport refrom lxml import etreeimport time# 需求:爬取58二手房的房源信息if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

2020-09-02 23:40:39 155

原创爬虫-xpath学习

xpath解析:最常用且最便捷高效的一种解析方式，具有通用性xpath解析的原理：一、实例化一个etree对象，且需要将被解析的页面源码数据加载到该对象中二、调用etree对象中的xpath方法结合着xpath表达式实现标签定位和内容的捕获环境的安装:pip install lxml如何实例化一个etree对象:from lxml import etree一、将本地中的html文档中的源码数据加载到etree对象中:etree.parse(filePath)二、可以将从互联网上..

2020-09-02 23:19:39 158

原创哔哩哔哩视频弹幕爬取

首先进入一个视频的界面，F12浏览network,限定XHR，播放视频，搜索list,这时会有一个如下截图一样的请求Request URL:https://api.bilibili.com/x/player/pagelist?bvid=BV11D4y127tj&jsonp=jsonp，对该url发起请求后，会得到一个json，json里包含了cid通过cid的拼接，‘https://comment.bilibili.com/’ + cid + ‘.xml’,得到一个url，该url.

2020-08-22 18:03:17 845

原创三国演义全文爬取

import requestsimport jsonimport reimport osfrom bs4 import BeautifulSoupif __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/53

2020-08-20 18:15:16 611 1

原创 BeautifulSoup对象实例化以及使用

bs4进行数据解析bs4数据解析的原理:1.实例化一个Beautifulsoup对象，并将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象：from bs4 import BeautifulSoup对象的实例化：1.将本地HTML文档中的数据加载到该对象中 # 将本地html文档中的数据加载到对象中 fp = open('./test.html','r',encoding='utf-

2020-08-20 17:44:03 720

原创糗事百科-动态获取全部页码数并爬取图片

练习import requestsimport jsonif __name__ == "__main__": # 指定url url = 'https://pic.qiushibaike.com/system/pictures/12348/123484325/medium/6UZ51MRIVF06EX0A.jpg' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win

2020-08-20 16:35:03 452

原创 Python爬虫 KFC店铺位置抓取

import requestsimport jsonimport mathif __name__ == "__main__": # 指定url url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb

2020-08-18 19:25:26 1061 2

原创 requests模块练习-爬取豆瓣

滚轮向下滚动到底部会触发一次阿贾克斯请求(Ajax)，会局部更新页面。请求的url地址以及其对应的方式为GET而得到的数据类型是json传递的数据其中start表示的是获取到数据库中的起始位置，limit表示获取的数量代码部分:import requestsimport jsonif __name__ == "__main__": # 指定url url = 'https://movie.douban.com/j/chart/top_list' # 进行UA伪

2020-08-18 18:26:25 130

原创简单获取百度翻译结果

学习通过判重获取任意单词对应的百度翻译的结果-POST请求（携带了参数）-响应数据是一组json数据这是一个XHR,局部刷新界面data为 kw:catRequest URL响应数据是一组json数据代码：import requestsimport jsonif __name__ == "__main__": # 指定url post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = {

2020-08-18 17:54:25 407

原创 UA检测

import requests# UA检测:门户网站的服务器会检测对应请求的载体的身份标识，如果检测到请求的载体身份标识为某一浏览器# 说明该请求为一正常请求,但是如果检测到请求的载体身份标识不是基于某一款浏览器，# 则表示该请求为不正常请求,则服务器会拒绝该次请求# UA:User-Agent(请求载体的身份标识)# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器if __name__ == "__main__": # UA伪装 headers = {

2020-08-18 17:26:14 2412

转载转载-python爬虫学习（循环爬取网页链接）

https://blog.csdn.net/One_Ok_Clock/article/details/89189151?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf

2020-08-11 00:00:53 1005

qq_34272745的博客