BS4模块爬取第一财经练手

最新推荐文章于 2024-07-03 21:06:29 发布

伊玛目的门徒

最新推荐文章于 2024-07-03 21:06:29 发布

阅读量645

点赞数

分类专栏：爬虫文章标签： PYTHON 爬虫

本文链接：https://blog.csdn.net/qq_37195257/article/details/74936307

版权

爬虫专栏收录该内容

29 篇文章 0 订阅

订阅专栏

采用requests包和beautiful soup

注意requests get请求得到的html要encode为‘UTF-8’

得到的数据结果为新闻标题+url

# coding=utf-8
from bs4 import BeautifulSoup
import requests
import time
h1={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

o_g=['113.200.159.155:9999']
pro={'http': o_g[0],

             }
html=requests.get('http://www.yicai.com/news/cbndata/',timeout=20,headers=h1,proxies=pro)
html.encoding = "utf-8"
html = html.text


soup = BeautifulSoup(html,'lxml')
con=soup.find_all('h3',class_="f-ff1 f-fwn f-fs22")
for item in con:
    print item.get_text()
    print item.a.attrs['href']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

伊玛目的门徒

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BS4模块爬取第一财经练手

采用requests包和beautiful soup注意requests get请求得到的html要encode为‘UTF-8’得到的数据结果为新闻标题+url# coding=utf-8from bs4 import BeautifulSoupimport requestsimport timeh1={ 'User-Agent':'Mozilla/5.0 (W
复制链接

扫一扫