简单的一个爬虫python程序
目的
获取对应网页上的汉字字典内容
知识点
使用python中的两个库:获取http请求的库(requests)和正则表达式的库(re)
过程
先通过获取http请求的网页源代码,然后通过查看想要爬虫的内容在网页源代码中的位置结构,接着通过正则表达式去搜索检测,得到想要的内容。
重要的就是,如何写出准确的正则表达式,获取我们想要的内容进行准确匹配。
源代码
"""
author: Mikchy
time: 2019/08/03
function: 用于简单测试爬虫,爬一个网页上的汉字,存为一个list
"""
# http请求的库
import requests
# 正则表达式的库
import re
# get,post等,获取该网页的源代码(和直接网页看源代码一样)
html_content = requests.get("https://www.zdic.net/zd/zb/cc1/")
# 想要和直接看网页源代码,将得到的网页输出text文本,就可以
# print(html_content.text)
messages = "你好呀"
# 为了获取网页源代码上,想要的东西(指定位置之类的),就需要
# 正则表达式,用于获取网页源代码文本中指定位置的,这个需要深入学习
# 我们发现这个例子中,要获取的汉字,刚好是在下面结构中(一般在什么位置,需要先观看网页源代码,才能知道自己要爬虫的东西在的地方)
reg = "href='/hans/(.*)' "
# 这个是,将网页源代码文本,匹配搜索所有符合正则表达式要求的东西,返回为一个list存储
hans_list = re.findall(reg, html_content.text)
for message in messages:
for index, element in enumerate(hans_list): # 这个是遍历列表中所有下标及其对应位置元素
if message == element:
print(message)
print(index)
break