爬虫

import urllib.request
from bs4 import BeautifulSoup, SoupStrainer
import re

lis_str = []


def for_list(list_x):
    for x in list_x:
        if len(x) > 1:
            for_list(x)
        else:
            # 过滤所有标签
            pattern = re.compile("<(.*?)>")
            lis_str.append(re.sub(pattern, "", str(x)))


if __name__ == '__main__':
    url=''.strip()
    reponse = urllib.request.urlopen(url)
    only_a_tags = SoupStrainer('div', attrs={"class": "vF_detail_content_container"})
    p_x_list = BeautifulSoup(reponse.read().decode('utf-8'), 'html.parser', parse_only=only_a_tags)
    for_list(p_x_list)
    count = len(lis_str)
    filter_lis = ['采购', '联系', '中标', '电话', '传真', '成交']
    for i in range(count):
        if bool(re.compile(u'[\u4e00-\u9fa5]').search(lis_str[i])) or bool(re.search(r'\d', lis_str[i])):
            if '采购' in lis_str[i] or '联系' in lis_str[i] or '中标' in lis_str[i] or '电话' in lis_str[i] or '传真' in lis_str[
                i] or '成交' in lis_str[i]:
                datas.append(lis_str[i])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值