Python + re + scrapy.Selector: 分析提取某在线征信站体系内容(一)

Python + re + scrapy.Selector: 分析提取某在线征信站体系内容(一)


MR.N

前言

对于大多数求职者而言,查询企业征信是很有必要的。作为一个有“内涵”有技术的计算机科学技术人员,纯手动搜索实在不是流行的手法。半自动化和自动化才是办公流行的新趋势。科学技术是第一生产力,而时间就是金钱。智能分析可以节省大量的精力和资源,提高工作效率和产出质量。不管是作为一名有“深度”的劳斯基亦或是懵懂的菜鸟,下面就来试试如何使用Python工具包智能分析提取在线征信内容吧。

分析

在开始项目之前,挑选确定目标是一件很重要的事情。切忌定制不可实现的过高的目标计划。就在几个常用的征信站点中挑选难度适中且有一定挑战性的。这里,以天某查作为分析的目标。
打开天某查搜索页面,输入关键字进行查找。
搜索结果
单就页面显示排列的结构信息来看,内容很工整。整个版面一板一眼的,排版和一般网站一样很清晰。用火狐浏览器(Firefox)右键菜单的“检查(Q)”功能(或者Chrome类似的)查看网页的HTML体系结构。
目标数据单元
目标数据列表
可以发现目标内容在层层嵌套的DIV标签中。而且,DIV标签的class属性值都包含一个四位字母作为后缀。多次刷新搜索页面后,发现这个四位字母组成的后缀是随机变化的。这个可能是HTML代码混淆或者说是一种“反爬虫”的技术手段。对于使用xpath的bz来说,一开始还很不习惯。不过没关系,前缀是固定不变的!(王德发!)
按照这个重要关键的线索,思路变得简单了。先提取class属性值包含这个特征的DIV标签组合列表,然后在得到的HTML代码中重新筛选关键信息。因为原始数据是HTML代码,所以考虑过滤不必要、没那么重要的HTML标签。
如果是希望得到更加结构化的数据,应该保留HTML标签。这里,bz只是进行简单的数据清洗和展示。除了超链接a标签,其余的HTML标签均过滤掉。这时得到的数据比较原始混乱,价值还是差不多的。分析提取时,需要注意数据单元条目分隔符。

实现

天某查的征信搜索信息,可能是基于搜索关键字的原因,是包含于HTML代码中。所以,通过直接下载网页即可得到目标信息。分析HTML体系结构信息,考虑通过Scrapy的Selector使用xpath和简单的逻辑提取所需要的一手原始数据。至于过滤HTML标签,Python内置库re的sub方法能轻松搞定。

tianyancha_1.py

# -*- coding: utf-8 -*-
"""
@file: tianyancha_1
@author: MR.N
@created: 2022/8/22 8月
@version: 1.0
@blog: https://blog.csdn.net/qq_21264377
"""

from httpkit import *
from scrapy import Selector
from urllib.parse import urlencode
from filtertags import *

tianyancha_url = 'https://www.tianyancha.com/search?'


def test(key='天眼查'):
    global tianyancha_url
    encoded_key = urlencode({
   'key': key})
    url = tianyancha_url + encoded_key
    remote_task = RemoteTask(url=url)
    ret = []
    ret_code = get_res_objects2(remote_task=remote_task, ret=ret)
    print(ret_code)
    if ret_code == 'success':
        items = []
        text = ret[0]
        sel = Selector(text=text)
        link_texts = sel.xpath('//div').getall()
        for l
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值