python开发模板(自用 2)-- 模块清晰抓取

def _get_new_data(self, page_url, soup, final_str_name):
con_datas = []
res_data = {}
# url
res_data['url'] = page_url
res_data['name'] = 'hibernate'
contents = soup.find_all(attrs = {'class':'dl-horizontal'})
#print(contents)
for content in contents:
name = content.find('dt')
str_name = name.get_text()
str_name = str_name.strip()
conts = content.find_all('dd')
str_cont = conts[2].get_text() + '\n'+ conts[3].get_text() + ' : '
str_url = conts[3].find('a')
str_cont = str_cont + str_url['href']
con_data = {}
con_data['name'] = str_name
con_data['cont'] = str_cont
con_datas.append(con_data)
# print("111111")
# print(con_data['name'])
# print("333333")
# print(con_data['cont'])
# print("222222")
return res_data, con_datas

转载于:https://www.cnblogs.com/clover-xuqi/p/7150463.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值