python爬虫之requests_html 爬取身份证信息（假的信息）

最新推荐文章于 2024-05-27 09:45:56 发布

以学为干。

最新推荐文章于 2024-05-27 09:45:56 发布

阅读量983

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_41644139/article/details/114982727

版权

爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

python爬虫之requests_html 爬取身份证信息（假的信息）

直接上源码，粘贴即用


```python
import requests
from requests_html import HTMLSession
session = HTMLSession()
def huoqu():
    session = HTMLSession()
    for url in listlink():
        r = session.get(url)
        for i in range(1,16):
            name = r.html.xpath("//table[2][@class='table']/tbody/tr["+str(i)+"]/td", first=True).text
            id = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[2]", first=True).text
            age = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[3]", first=True).text
            sex = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[4]", first=True).text
            add = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[5]", first=True).text
            print(name,id,age,sex,add)


def listlink():
    r = session.get('http://sfzdq.uzuzuz.com/sfz/510000.html')
    a=r.html.xpath("//ul[@class='list-group']", first=True).absolute_links
    return (list(a))
if __name__ == '__main__':
    huoqu()

写入csv文件

```python
import requests
from requests_html import HTMLSession
import csv
session = HTMLSession()
f = open('身份证信息.csv','w',encoding='utf-8')
csv_writer = csv.writer(f)
csv_writer.writerow(["姓名","年龄","性别"])
def huoqu():
    session = HTMLSession()
    for url in listlink():
        r = session.get(url)
        for i in range(1,16):
            name = r.html.xpath("//table[2][@class='table']/tbody/tr["+str(i)+"]/td", first=True).text
            id = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[2]", first=True).text
            age = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[3]", first=True).text
            sex = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[4]", first=True).text
            add = r.html.xpath("//table[2][@class='table']/tbody/tr[" + str(i) + "]/td[5]", first=True).text
            a=([name,id,age,sex,add])
            # 保存到本地excel
            csv_writer.writerow(a)
    f.close()



def listlink():
    r = session.get('http://sfzdq.uzuzuz.com/sfz/510000.html')
    a=r.html.xpath("//ul[@class='list-group']", first=True).absolute_links
    return (list(a))
if __name__ == '__main__':
    huoqu()

以学为干。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之requests_html 爬取身份证信息（假的信息）

python爬虫之requests_html 爬取身份证信息（假的信息）直接上源码，粘贴即用import requestsfrom requests_html import HTMLSessionsession = HTMLSession()def huoqu():session = HTMLSession()for url in listlink():r = session.get(url)for i in range(1,16):name = r.html.xpath("//tabl
复制链接

扫一扫