python爬取身份证信息、爬取ip代理池

最新推荐文章于 2024-12-11 14:37:40 发布

原创

最新推荐文章于 2024-12-11 14:37:40 发布 · 4.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

匹配的分类

按照匹配内容进行匹配

我们在匹配的过程当中，按照要匹配的内容的类型和数量进行匹配

比如：

匹配手机号：匹配以1开头的11位数字

按照匹配结构进行匹配

我们我们在匹配的过程当中，按照要匹配的内容在整个数据当中的结构进行匹配

比如：

匹配手机号：匹配phone：之后的值

Xpath

Beautifulsoup 是一个匹配的结合体，我们使用beautifulsoup可以完成内容和结构任意匹配。

内容匹配，匹配繁琐，匹配精度高

机构匹配，匹配精度不高，匹配效率高，一定是成结构的字符

re正则

正则是通过对字符串内容描述进行数据筛选的高级字符串处理方式

在学习Python爬虫的时候，初学同学会认为非正则不可，其实一部分简单的匹配结构用的最多的方法是字符串的:split、replace方法

内容的类型

#每个类型默认匹配1次

\d 匹配数字

\D 匹配非数字

\s 匹配空格

\S 匹配非空格

\w 匹配字母、数字、下划线

\W 匹配非字母、数字、下划线

[] 匹配任意字符

| 匹配任意一端

[^] 匹配非

. 匹配任意非换行的字符

^ 匹配开头

$ 匹配结尾

() 组匹配

内容的长度

长度描述居于内容描述之后

如果有多次，指尽量多的匹配

如果匹配0次，代表没有匹配到

* 匹配0到多次

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Qingwashuo

关注关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫(83)】探秘an网数据爬取：合法合规下的技术探索

邓邓子的博客

02-26

826

本文聚焦 Python 爬虫在an网数据爬取中的应用。先介绍an网定义、与普通网络区别及访问方式，强调合法合规爬取的重要性，解读相关法律法规及违规后果。接着阐述 Scrapy 等适用爬虫工具及其配置、使用技巧与应对反爬虫策略。通过爬取实战展示确定目标、编写代码及数据存储清洗过程。还探讨an网数据分析方法、挖掘潜在价值及成功案例，阐述其在打击网络犯罪中的应用。最后回顾要点，展望未来技术创新、法律完善及国际合作的发展方向。

Python爬虫终极指南：异步爬虫+Playwright逆向，高效爬取携程旅游数据

热门推荐

qq_55342245的博客

11-19

1万+

python爬虫--根据身份证号码获取户籍地、出生年月等信息一、背景二、代码部分完整代码一、背景工作中偶尔会遇到这样的情况，给你一堆客户身份证号码，然后要你把对应的性别、生日、户籍地等信息弄出来。最常用的方法就是用excel表套公式，这个方式如果用来取性别、生日这些信息的话问题不大，毕竟这些规则还好梳理，但是如果想要弄户籍地（如：广东省广州市荔湾区），操作难度极大。首先，你要弄到相应的行政区划代码，如广东省广州市天河区是440106，要注意，这些区划代码因为行政区划的调整，是有很多变化的，而且还是

python手机号信息查询身份证_Python使用xpath爬虫查询身份证信息和手机号信息并写入Excel表格...

weixin_39669638的博客

12-11

5628

一.这个程序在网上还是有很多范例的，所以我就将大家的总结一下，然后形成自己的小程序，废话少说，上代码import timeimport requestsfrom lxml import etree # xpath模块import pandas as pd # 写入Excel模块# 获取身份信息def main():time1 = time.time()# 将要获取的身份证号df = pd...

Python-爬虫（正则表达式基础、修饰符、元字符、数量修饰符，练习判断身份证是否正确）

dodamce的博客

09-06

985

首先我们得出前17位的乘积和【(5×7)+(3×9)+(0×10)+(1×5)+(0×8)+(2×4)+(1×*2)+(9×1)+(2×6)+(0×3)+(0×7)+(5×9)+(0×10)+(8×5)+(0×8)+(1×4)+(1×2)】是189，然后用189除以11得出的结果是189/11=17----2，也就是说其余数是2。作为尾号的校验码，是由号码编制单位按统一的公式计算出来的，校验码如果出现数字10，就用X来代替，详情参考下方计算方法。地区-----年----月–日-3位顺序码-校验码。

python爬虫-通过身份证识别地区信息

左手coding，右手cooking

05-22

2271

# -*- coding: utf-8 -*- """ Created on Thu Jan 03 10:26:02 2019 @author: johnson.zhong """ import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree ti...

Python之反爬虫手段（User-Agent，Cookie，Referer，time.sleep()，IP代理池）

qq_38230663的博客

05-15

7813

现在的爬虫越来越难，各大网站为了预防不间断的网络爬虫，都相应地做出了不同的反爬机制，那么如何能够在不被封IP的情况，尽可能多得爬取数据呢？这里主要介绍到一些通用的反爬措施，虽然不一定适合所有网站，但是大部分网站的爬取，个人认为还是可以的。本文主要介绍到User-Agent，Cookie，Referer，time.sleep()设置睡眠间隔，ProxyPool之IP池的搭建，小伙伴们各取所需！由于后续爬虫案例都默认自带这些反爬技术，所以这里就统一详细介绍下，后续案例就不再过多涉及，废话不多说，开始展开！

中国土地市场网爬取

猫敷雪

06-13

5085

实习期间老板需要对土地数据进行爬取，想来想去就Google到了.应该算是种类最齐全的土地数据了。Github地址：https://github.com/AnTi-anti/china_land/tree/master。

【python 爬虫】身份证归属地爬虫

赖德发的博客

08-16

4979

输入数据：身份证号码 # -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree time1=time.time() import pandas as pd df = pd.read_csv('F:/shen

Python实现身份证号码解析

01-21

中国的居民身份证有18位。其中前17位是信息码，最后1位是校验码。每位信息码可以是0-9的数字，而校验码可以是0-9或X，其中X表示10。 身份证校验码算法：设18位身份证号序列从左到右为: 引用 a[0], a[1], a[2], a[3], …, a[16], a[17] 其中a[i]表示第i位数字，i=0,1,2,…,17，如果最后一位（校验位）是X，则a[17]=10 每一位被赋予一个“权值”，其中，第i位的权值w[i]的计算方法是：引用 w[i] = 2**(17-i) 其中，i=0,1,2,3,…,17，运算符按Python惯例：x**y表示x的y次方，x%y表示

python通过身份证号码获取居住地址，爬虫xpath使用案例

大蛇王的博客

03-12

3929

运行环境python3.6 import requests from lxml import etree def getAddr(idNum): # 网上找的第三方接口 url="http://qq.ip138.com/idsearch/index.asp?action=idcard&userid=" # 拼接完整地址 url_idnum=url+str...

python提取身份证信息_Python selenium 身份证信息在线解析爬取

weixin_39531183的博客

12-02

1078

当做笔记：身份证地区查询，网络上的查询网站也比较多。现在查询数据库中的身份证，识别其中的信息。主要通过该网站：http://www.gpsspg.com/sfz/脚本：#-*- coding: utf-8 -*-# python 3.5.0import sqlalchemyimport pandas as pdfrom selenium import webdriverfrom selenium....

人人网爬虫爬取用户图片总结（一）——获取用户id

万万VV

11-11

1343

基本原理我们爬取图片的最终目的是将每一个用户的id作为一个key，对应每个用户下都是一个人的照片，再将此数据集作为训练集输入模型，来提高模型的精度。所以第一步就是要获取尽量多的用户id，从而来追踪该id的相册里的图片。要得到足够多的id，我们利用人人网找人的搜索框功能通过关键词学校和年份来获得用户Id，所以首先我们需要两个list，一个是学校的list，另一个是年份的lIst。一、建立学校...

[Python进阶] Python获取身份证信息

知智

02-28

5319

公民身份号码是每个公民唯一的、终身不变的身份代码，由公安机关按照公民身份号码国家标准编制。每一个居民只能拥有一个唯一的身份证，它是用于证明持有人身份的一种法定证件。

区块链基础之go语言

04-02

Go 是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由Robert Griesemer, Rob Pike, Ken Thompson主持开发，后来还加入了Ian Lance Taylor, Russ Cox等人，并最终于2009年11月开源，在2012年早些时候发布了Go 1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区。Go 语言特色简洁、快速、安全并行、有趣、开源内存管理、数组安全、编译迅速Go 语言用途Go 语言被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并行的支持，这对于游戏服务端的开发而言是再好不过了。第一个 Go 程序接下来我们来编写第一个 Go 程序 hello.go（Go 语言源文件的扩展是 .go），代码如下：hello.go 文件package mainimport fmtfunc main() 运行实例 »要执行 Go 语言代码可以使用 go run 命令。执行以上代码输出:$ go run hello.go Hello, World!此外我们还可以使用 go build 命令来生成二进制文件：$ go build hello.go $ lshello hello.go$ ./hello Hello, World!

【python 爬虫】全国失信被执行人名单爬虫

赖德发的博客

08-22

6485

一、需求说明通过百度的接口，爬取全国失信被执行人名单。翻页爬虫，获取姓名，身份证等信息。二、python实现版本1：# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests time1=time.time() import pandas as pd

爬虫实验报告篇：手机号码归属地查询

2301_77408198的博客

12-11

1412

本次实验主要是使用get请求，实现手机号码归属地查询页面中输入手机号，输出其相关信息，采用requests库实现相关功能，比较简单。

Python爬虫实现知乎用户数据采集与分析

此外，知乎对未登录用户的访问频率有严格限制，频繁请求会导致IP被封禁，因此合理设置请求间隔（time.sleep）、使用代理池、更换User-Agent策略成为必要手段。在数据解析方面，若页面为静态HTML，则可使用`...