本文旨在通过最基础的爬虫模块,爬取搜狐体育新闻的标题和内容,并且存储到数据库中,下面是关键性代码,以爬取nba新闻为例子
import re
import pymysql
import urllib.request
# 对html页面进行解码
def decode_html(html,charsets=('utf-8','gbk','gb2312'):
page_html = ''
for charset in charsets:
try:
# 尝试对html页面进行解码,如果解码成功直接返回
page_html = html.decode(charset)
break
# 如果解码错误,静默处理
except Exception as e:
pass
return page_html
# 得