简单爬虫测试Python

简单的一个爬虫python程序

目的

获取对应网页上的汉字字典内容

知识点

使用python中的两个库:获取http请求的库(requests)和正则表达式的库(re)

过程

先通过获取http请求的网页源代码,然后通过查看想要爬虫的内容在网页源代码中的位置结构,接着通过正则表达式去搜索检测,得到想要的内容。

重要的就是,如何写出准确的正则表达式,获取我们想要的内容进行准确匹配。

源代码

"""
author: Mikchy
time: 2019/08/03
function: 用于简单测试爬虫,爬一个网页上的汉字,存为一个list
"""

# http请求的库
import requests
# 正则表达式的库
import re

# get,post等,获取该网页的源代码(和直接网页看源代码一样)
html_content = requests.get("https://www.zdic.net/zd/zb/cc1/")
# 想要和直接看网页源代码,将得到的网页输出text文本,就可以
# print(html_content.text)

messages = "你好呀"

# 为了获取网页源代码上,想要的东西(指定位置之类的),就需要
# 正则表达式,用于获取网页源代码文本中指定位置的,这个需要深入学习
# 我们发现这个例子中,要获取的汉字,刚好是在下面结构中(一般在什么位置,需要先观看网页源代码,才能知道自己要爬虫的东西在的地方)
reg = "href='/hans/(.*)' "

# 这个是,将网页源代码文本,匹配搜索所有符合正则表达式要求的东西,返回为一个list存储
hans_list = re.findall(reg, html_content.text)

for message in messages:
    for index, element in enumerate(hans_list):  # 这个是遍历列表中所有下标及其对应位置元素
        if message == element:
            print(message)
            print(index)
            break

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值