自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 selenium模拟12306登录

#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5from selenium import webdriverimport timefrom PIL import Imagefrom selenium.webdriver import ActionChains# 12306模拟登录过程# 使用selenium打开登陆界面,对当前selenium打开的界面截图# 对当前图片局部区域(验证码照片)

2020-09-21 09:21:20 189

原创 selenium 无头浏览器+规避检测

from selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keys# 实现无可视化界面from selenium.webdriver.chrome

2020-09-20 20:46:44 1256 2

原创 selenium模拟登录QQ空间

import pymysqlimport urllibimport requestsimport refrom selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.key

2020-09-20 20:32:16 180

原创 selenium之动作链

import pymysqlimport urllibimport requestsimport refrom selenium import webdriver# 导入动作链from selenium.webdriver import ActionChainsfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.key

2020-09-20 20:12:30 194 1

原创 selenium简单操作

import pymysqlimport urllibimport requestsimport refrom selenium import webdriverfrom time import sleepfrom urllib.parse import quotefrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keys# 加载selenium需要的驱动driver_path = r'D:\

2020-09-20 19:56:48 97

原创 aiohttp使用

import requestsimport reimport timefrom lxml import etree# 导入线程池模块对应的类from multiprocessing.dummy import Poolimport asyncio# 使用该模块中的一个ClienSession对象进行网络化请求import aiohttpstart = time.time()urls = [ 'www.baidu.com', 'www.csdn.com', 'www.bilibil

2020-09-03 19:58:14 207

原创 单线程+异步协程 爬虫

event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行coroutine:协程对象,我们可以将协程对象注册到事件循环中,他会被事件循环调用。我们可以使用 async 关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回一个协程对象task:任务,它是对协程对象的进一步封装,包含了任务的各个状态。future:代表将来执行或还没有执行的任务,实际和 task 没有本质区别。async:定义一个协程。await:.

2020-09-03 19:14:58 167

原创 爬取58二手房的放原标题

import requestsfrom bs4 import BeautifulSoupimport refrom lxml import etreeimport time# 需求:爬取58二手房的房源信息if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

2020-09-02 23:40:39 154

原创 爬虫-xpath学习

xpath解析:最常用且最便捷高效的一种解析方式,具有通用性xpath解析的原理:一、实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中二、调用etree对象中的xpath方法结合着xpath表达式实现标签定位和内容的捕获环境的安装:pip install lxml如何实例化一个etree对象:from lxml import etree一、将本地中的html文档中的源码数据加载到etree对象中:etree.parse(filePath)二、可以将从互联网上..

2020-09-02 23:19:39 157

原创 哔哩哔哩视频弹幕爬取

首先进入一个视频的界面,F12浏览network,限定XHR,播放视频,搜索list,这时会有一个如下截图一样的请求Request URL:https://api.bilibili.com/x/player/pagelist?bvid=BV11D4y127tj&jsonp=jsonp,对该url发起请求后,会得到一个json,json里包含了cid通过cid的拼接,‘https://comment.bilibili.com/’ + cid + ‘.xml’,得到一个url,该url.

2020-08-22 18:03:17 842

原创 三国演义全文爬取

import requestsimport jsonimport reimport osfrom bs4 import BeautifulSoupif __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/53

2020-08-20 18:15:16 610 1

原创 BeautifulSoup对象实例化以及使用

bs4进行数据解析bs4数据解析的原理:1.实例化一个Beautifulsoup对象,并将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化:1.将本地HTML文档中的数据加载到该对象中 # 将本地html文档中的数据加载到对象中 fp = open('./test.html','r',encoding='utf-

2020-08-20 17:44:03 718

原创 糗事百科-动态获取全部页码数并爬取图片

练习import requestsimport jsonif __name__ == "__main__": # 指定url url = 'https://pic.qiushibaike.com/system/pictures/12348/123484325/medium/6UZ51MRIVF06EX0A.jpg' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win

2020-08-20 16:35:03 443

原创 Python爬虫 KFC店铺位置抓取

import requestsimport jsonimport mathif __name__ == "__main__": # 指定url url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' # 进行UA伪装 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb

2020-08-18 19:25:26 1059 2

原创 requests模块练习-爬取豆瓣

滚轮向下滚动到底部会触发一次阿贾克斯请求(Ajax),会局部更新页面。请求的url地址以及其对应的方式为GET而得到的数据类型是json传递的数据其中start表示的是获取到数据库中的起始位置,limit表示获取的数量代码部分:import requestsimport jsonif __name__ == "__main__": # 指定url url = 'https://movie.douban.com/j/chart/top_list' # 进行UA伪

2020-08-18 18:26:25 129

原创 简单获取百度翻译结果

学习通过判重获取任意单词对应的百度翻译的结果-POST请求(携带了参数)-响应数据是一组json数据这是一个XHR,局部刷新界面data为 kw:catRequest URL响应数据是一组json数据代码:import requestsimport jsonif __name__ == "__main__": # 指定url post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = {

2020-08-18 17:54:25 406

原创 UA检测

import requests# UA检测:门户网站的服务器会检测对应请求的载体的身份标识,如果检测到请求的载体身份标识为某一浏览器# 说明该请求为一正常请求,但是如果检测到请求的载体身份标识不是基于某一款浏览器,# 则表示该请求为不正常请求,则服务器会拒绝该次请求# UA:User-Agent(请求载体的身份标识)# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器if __name__ == "__main__": # UA伪装 headers = {

2020-08-18 17:26:14 2405

转载 转载-python爬虫学习(循环爬取网页链接)

https://blog.csdn.net/One_Ok_Clock/article/details/89189151?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf

2020-08-11 00:00:53 1004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除