自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件

说明:##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html1 Requests+Xpath 爬取豆瓣读书TOP‘’’Requests+Xpath 爬取豆瓣读书TOP安装 Python 应用包pip install requestspip install lxml获取元素的Xpath信息并获得文本:手动获取:定位目标元素,在网站上依次点击:右键 > 检查file=s.xpath(‘元素的Xpath信息/text()’)快捷键

2021-07-01 23:16:32 5380

原创 python爬虫之BeautifulSoup

参考:https://blog.csdn.net/weixin_34127717/article/details/90583410?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7E

2021-06-01 21:49:18 442

原创 Xpath解析库

一、XPath 常用规则二、介绍安装lxml 库,导入库,from lxml import etree2.1 构造XPath 解析对象index.html的内容'''<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's stor

2021-06-01 21:19:15 220

原创 requests+re爬取猫眼电影排行

import requestsfrom requests.exceptions import RequestExceptionimport re,json,timedef get_one_page(url): #获取网页信息 try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.44

2021-06-01 20:07:47 277

原创 re正则表达式

正则

2021-05-31 18:23:38 332

原创 5-1请求库-urllib

Urllib库与URLError异常处理

2021-04-13 17:16:31 208

转载 4-爬虫-会话、cookie

爬虫基础——会话和Cookie会话和Cookie在浏览网站的过程中,我们经常遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站。有时候过一段时间就需要重新登录,有一些网站则打开浏览器就直接自动登录了,并且长时间不失效,这就涉及到会话和Cookie的相关知识。静态网页和动态网页使用前文的HTML示例代码这是一个基础的HTML代码,我们将其保存为一个.html文件,把它放在某台具有固定公网IP的主机上,主机上装上Apache或Nginx等服务器,这样这台主机就可

2021-04-12 16:56:54 163

原创 3-爬虫基础--网页基础

1.网页的组成2.网页的结构3.节点树及节点间的关系4.选择器

2021-04-12 15:44:33 87

原创 1-爬虫介绍

1.爬虫概述爬虫过程:发送请求,获取网页源码信息;解析网页信息,提取有用数据;保存数据。2.爬虫类型通用网络爬虫、聚焦网络爬虫(主题网络爬虫)、增量式网络爬虫、深层网络爬虫。2.1 通用网络爬虫爬取海量数据,主要作用于搜索引擎。组成:初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成。爬行策略:深度优先和广度优先。2.2聚焦网络爬虫(主题网络爬虫)根据预先定义好的有选择性地进行页面爬取的一种爬虫,将爬取的目标网页定位与主题相关的页面中。是特定信息

2021-04-12 15:26:32 178

原创 python——身份证有效性验证

import pymssql#sql serverfrom id_validator import validatorserver 数据库服务器名称或IPuser 用户名password 密码database 数据库名称conn = pymssql.connect(server=‘IP’, user=‘sa’, password=‘sa’, database=‘test_python’)cursor = conn.cursor() #创建游标对象#首先判断是否有数据表,

2021-03-26 16:31:25 723 1

原创 2-爬虫基础---HTTP原理

1.URL统一资源定位符,如https://www.githubs.cn/favicon.ico。其中https代表访问协议;访问路径:www.githubs.cn代表访问网站的根目录;资源名称:favicon.ico。2.超文本浏览器网页的源代码html就是超文本,网页就是超文本解析而成。如下:F12->Elements里的html代码就是超文本。3.HTTP和HTTPSHTTP:超文本传输协议,用于从网络传输超文本数据到本地浏览器的传送协议,能够保证高效而准确地传输超文本文档。

2021-03-12 16:45:18 166

转载 Python网络爬虫四大选择器(正则表达式、BS4、Xpath、CSS)总结

Python网络爬虫四大选择器(正则表达式、BS4、Xpath、CSS)总结0.前言相关实战文章: 正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。网络爬虫:模拟客户端批量发送网络请求,批量接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序,进行数据采集,并进行持久化存储。其他用途:百度搜索, 12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器 都是爬虫技术。爬虫的用途1.金融 金融新闻/数据 制定投资策

2021-03-09 16:58:54 1210

原创 python---global、lambda

1.global将全局变量可以在函数体内进行修改。2.lambda作用:即用即删除,很适合完成一项功能,但是此功能只在此一处使用。

2021-02-26 15:51:07 140

原创 python深浅拷贝

一、拷贝就是直接赋值,就是对象引用。解析:b= a:赋值引用。a,b都指向同一个对象。a = [1,[2,3]]b=aprint(id(a))print(id(b))print(id(a[0]))print(id(b[0]))print(id(a[1]))print(id(b[1]))结果261497033612826149703361282614967363888261496736388826149684039682614968403968二、浅拷贝浅拷贝

2021-02-24 15:15:10 101

原创 python数据类型简单介绍

python数据类型简单介绍1.python数据类型种类数字类型字符串类型布尔类型空类型列表类型元组类型字典类型1.1数字类型整型 int;浮点型 float;内置函数–type整型 int:既是整型的代表,也是定义整型的内置函数内置函数:count = int(100)浮点型 float:既是浮点型的代表,也是定义浮点型的内置函数内置函数:float_count = float(3.14)内置函数–type:返回变量的类型count = 100prin

2021-02-20 15:18:24 711

转载 python书籍推荐

python学习书籍推荐来源:https://www.py.cn/jishu/jichu/12559.html基础篇(学习路径:1->2->3)1.《Python 编程:从入门到实践》/ 豆瓣 9.1 / 2016-7-1 出版 / [美] 埃里克・马瑟斯Amazon编程入门类榜首图书,国内 Python 入门第一书。基于 Python3.5同时也兼顾 Python2.7,是一本全面的Python编程,从入门到实践教程,带领读者快速掌握编程基础知识、编写出能解决实际问题的代.

2021-01-13 11:27:10 559

转载 python爬虫之web服务器连接

一、web服务器整体处理过程1、输入:URLhttp(https)://域名部分:端口号/目录/文件名.文件后缀http(https)://域名部分:端口号/目录/2、处理过程爬虫抓取多个页面只需解析robots.txt 一次,,HTTP1.1中设置的Connection属性设置为keep-alive,表示连接会保持,服务端不会主动断开连接2、requests和response的使用requests.request():用于构造一个请求requests.get():获取H

2020-05-23 13:43:23 672

原创 python爬虫之普通爬虫

一、普通爬虫的体系架构web服务器连接:向指定web服务器发送请求(Requsets中的get、post请求),建立爬虫与web服务器的网络连接,连接作为发送URL和接收信息的通道。DNS缓存:为了减少域名到IP地址的映射时间消耗。URL过滤与提取:页面解析器对获得的HTML文件进行分析,提取包含的URL,根据robots.txt协议判断访问许可列表、是否已经爬行过等基本规则,再对提取的URL过滤。爬行策略:深度优先、宽度优先、基于PageRank的重要排序、在线页面重要指数(On-Li

2020-05-23 12:02:50 825

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除