简单爬虫测试Python

最新推荐文章于 2024-06-17 11:32:50 发布

Mikchy

最新推荐文章于 2024-06-17 11:32:50 发布

阅读量690

点赞数

分类专栏： Python 文章标签：爬虫 Python

本文链接：https://blog.csdn.net/Mikchy/article/details/98530137

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

简单的一个爬虫python程序

目的

获取对应网页上的汉字字典内容

知识点

使用python中的两个库：获取http请求的库（requests）和正则表达式的库（re）

过程

先通过获取http请求的网页源代码，然后通过查看想要爬虫的内容在网页源代码中的位置结构，接着通过正则表达式去搜索检测，得到想要的内容。

重要的就是，如何写出准确的正则表达式，获取我们想要的内容进行准确匹配。

源代码

"""
author: Mikchy
time: 2019/08/03
function: 用于简单测试爬虫，爬一个网页上的汉字，存为一个list
"""

# http请求的库
import requests
# 正则表达式的库
import re

# get，post等，获取该网页的源代码（和直接网页看源代码一样）
html_content = requests.get("https://www.zdic.net/zd/zb/cc1/")
# 想要和直接看网页源代码，将得到的网页输出text文本，就可以
# print(html_content.text)

messages = "你好呀"

# 为了获取网页源代码上，想要的东西（指定位置之类的），就需要
# 正则表达式，用于获取网页源代码文本中指定位置的，这个需要深入学习
# 我们发现这个例子中，要获取的汉字，刚好是在下面结构中（一般在什么位置，需要先观看网页源代码，才能知道自己要爬虫的东西在的地方）
reg = "href='/hans/(.*)' "

# 这个是，将网页源代码文本，匹配搜索所有符合正则表达式要求的东西，返回为一个list存储
hans_list = re.findall(reg, html_content.text)

for message in messages:
    for index, element in enumerate(hans_list):  # 这个是遍历列表中所有下标及其对应位置元素
        if message == element:
            print(message)
            print(index)
            break

Mikchy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
简单爬虫测试Python

简单的一个爬虫python程序目的获取对应网页上的汉字字典内容知识点使用python中的两个库：获取http请求的库（requests）和正则表达式的库（re）过程先通过获取http请求的网页源代码，然后通过查看想要爬虫的内容在网页源代码中的位置结构，接着通过正则表达式去搜索检测，得到想要的内容。重要的就是，如何写出准确的正则表达式，获取我们想要的内容进行准确匹配。...
复制链接

扫一扫

专栏目录