一,代码实例
# coding=utf-8
import requests
from requests.exceptions import RequestException
import re
import urllib
import pandas as pd
def get_http(name):
'''用于配置链接
在爬取的过程中需要对head字典中配置进行适配器设置,其中信息可以通过浏览器中获得
而head存在的意义就是在爬取数据的时候,模拟浏览器去向服务器请求数据
因为有些网站设置了反扒机制,所以在爬取不同网站时需要配置的参数是不同的,反扒做的越全面需要配置的信息越多
对于百度百科,这几个参数就够了'''
head={
'User-Agent':'Mozilla/5.0 \
(Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
url='https://baike.baidu.com/item/%s'%name
html=requests.get(url,headers=head)
html=html.content.decode('utf-8')
return html
def get_one_moive(html):
'''正则表达式匹配'''
try:
text1 = u'<dt class.*?>中文名.*?lass=