Python基础爬虫
文章平均质量分 60
爬虫从基础到实战
雪小妮
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
有道翻译--js逆向分析md5加密参数---破解接口密文
有道翻译-最新js分析原创 2023-04-18 18:05:54 · 852 阅读 · 0 评论 -
51job+selenium+div弹窗
from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysimport time原创 2021-07-08 10:30:29 · 1818 阅读 · 0 评论 -
selenium+定位frame里的元素以及class属性元中有多个用空格隔开的元素
一、frame里的元素-----例子https://mail.163.com/登录1.原因:iframe的作用是文档中的文档,或者浮动的框架(FRAME)。iframe元素会创建包含另外一个文档的内联框架(即行内框架),在selenium使用的时候如果不进行切换,我们是无法定位到iframe中的元素的。我们可以通过switch_to.frame()来切换到相应的iframe上2.观察开发者工具可以看到用户名和密码都在iframe框架中from selenium import webdriverfr原创 2021-07-07 10:52:30 · 562 阅读 · 0 评论 -
selenuim+携程自由行+利用try...except判断元素是否存在
from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysimport time原创 2021-07-06 22:31:37 · 333 阅读 · 0 评论 -
selenuim+京东
一、步骤第一步:设置input,要搜索的关键字第二步,利用selenuim设置打开浏览器第三步:声明一个list,存储dict第五步:定义爬虫函数a. 请求url :browser.get(url)b.获取输入框的id,并输入关键字 :browser.find_element_by_id(‘xxx’).send_keys(key_word)c.输入回车进行搜索: browser.find_element_by_id(‘xxx’).send_keys(Keys.ENTER)d.显示等待下一页的转载 2021-07-05 16:13:07 · 125 阅读 · 0 评论 -
requests+bs4 +find豆瓣
import requestsfrom bs4 import BeautifulSoupfrom random import choicefrom requests.exceptions import RequestExceptionurl = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML原创 2021-07-02 17:48:19 · 112 阅读 · 0 评论 -
requests+bs4 使用css选择器(select)豆瓣
import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreeimport time, json, csv,xlwt,xlrdimport pandas as pdfrom xlutils.copy import copyfrom bs4 import BeautifulSoup# 第一步:#定义一个方法获取网页信息def get_one_page(url): try:原创 2021-07-02 17:47:02 · 2113 阅读 · 0 评论 -
Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件
说明:##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html1 Requests+Xpath 爬取豆瓣读书TOP‘’’Requests+Xpath 爬取豆瓣读书TOP安装 Python 应用包pip install requestspip install lxml获取元素的Xpath信息并获得文本:手动获取:定位目标元素,在网站上依次点击:右键 > 检查file=s.xpath(‘元素的Xpath信息/text()’)快捷键原创 2021-07-01 23:16:32 · 5380 阅读 · 0 评论 -
python爬虫之BeautifulSoup
参考:https://blog.csdn.net/weixin_34127717/article/details/90583410?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7E原创 2021-06-01 21:49:18 · 442 阅读 · 0 评论 -
Xpath解析库
一、XPath 常用规则二、介绍安装lxml 库,导入库,from lxml import etree2.1 构造XPath 解析对象index.html的内容'''<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's stor原创 2021-06-01 21:19:15 · 220 阅读 · 0 评论 -
requests+re爬取猫眼电影排行
import requestsfrom requests.exceptions import RequestExceptionimport re,json,timedef get_one_page(url): #获取网页信息 try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.44原创 2021-06-01 20:07:47 · 277 阅读 · 0 评论 -
re正则表达式
正则原创 2021-05-31 18:23:38 · 332 阅读 · 0 评论 -
5-1请求库-urllib
Urllib库与URLError异常处理原创 2021-04-13 17:16:31 · 208 阅读 · 0 评论 -
4-爬虫-会话、cookie
爬虫基础——会话和Cookie会话和Cookie在浏览网站的过程中,我们经常遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站。有时候过一段时间就需要重新登录,有一些网站则打开浏览器就直接自动登录了,并且长时间不失效,这就涉及到会话和Cookie的相关知识。静态网页和动态网页使用前文的HTML示例代码这是一个基础的HTML代码,我们将其保存为一个.html文件,把它放在某台具有固定公网IP的主机上,主机上装上Apache或Nginx等服务器,这样这台主机就可转载 2021-04-12 16:56:54 · 163 阅读 · 0 评论 -
3-爬虫基础--网页基础
1.网页的组成2.网页的结构3.节点树及节点间的关系4.选择器原创 2021-04-12 15:44:33 · 87 阅读 · 0 评论 -
1-爬虫介绍
1.爬虫概述爬虫过程:发送请求,获取网页源码信息;解析网页信息,提取有用数据;保存数据。2.爬虫类型通用网络爬虫、聚焦网络爬虫(主题网络爬虫)、增量式网络爬虫、深层网络爬虫。2.1 通用网络爬虫爬取海量数据,主要作用于搜索引擎。组成:初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成。爬行策略:深度优先和广度优先。2.2聚焦网络爬虫(主题网络爬虫)根据预先定义好的有选择性地进行页面爬取的一种爬虫,将爬取的目标网页定位与主题相关的页面中。是特定信息原创 2021-04-12 15:26:32 · 178 阅读 · 0 评论 -
2-爬虫基础---HTTP原理
1.URL统一资源定位符,如https://www.githubs.cn/favicon.ico。其中https代表访问协议;访问路径:www.githubs.cn代表访问网站的根目录;资源名称:favicon.ico。2.超文本浏览器网页的源代码html就是超文本,网页就是超文本解析而成。如下:F12->Elements里的html代码就是超文本。3.HTTP和HTTPSHTTP:超文本传输协议,用于从网络传输超文本数据到本地浏览器的传送协议,能够保证高效而准确地传输超文本文档。原创 2021-03-12 16:45:18 · 166 阅读 · 0 评论
分享