这次准备介绍Python爬虫爬取网页数据、解析并应用于实践,打算写几篇文章,从最基础的Python爬虫语法开始介绍爬虫,步步深入,最终实现一个较完整的实例。
这一系列文章包括:
-
request库介绍及应用
-
beautifulsoup库介绍及应用
-
正则表达式匹配及应用
-
对话机器人实例
-
tkinter库制作界面以及Python程序打包成可执行exe文件
本篇文章主要给出我最后做出来的一个可运行exe应用的展示,主要的目的是提高阅读者学习的兴趣。
最后做出来的聊天机器人可以根据用户输入的指令在指定网站爬取信息,并在后台解析,返回结果输出到界面。
我将这个exe应用放在了最后,可直接在电脑运行的文件,大家可以下载自己玩或者发给好友秀一下。
运行截图入下:
用户可以输入指令,例如:“给我讲个笑话”,“给我讲个段子”,“在网上给我找句晚安的话”等。如下:
我用的开发工具是Spyder,在后续的文章中我会逐渐深入的讲解这个例子的原理以及实现方法。
下面附上代码,感兴趣的同学可以拷贝自己运行试一下。
from tkinter import *
import time
import requests
from bs4 import BeautifulSoup
import bs4
import random
import re
‘’’
python学习交流群:1136201545更多学习资料可以加群获取
‘’’
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
#r.encoding = r.apparent_encoding
return r.text
except:
print(“faile”)
return “”
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, “html.parser”)
for tr in soup.find_all(‘article’):
if isinstance(tr, bs4.element.Tag):
tds = tr(‘a’)
ulist.append([tds[0].string, tds[1].string, tds[2].string])
def printUnivList(ulist,k):
return ulist[k][0]
def getduanzi():
uinfo = []
k=1
u = ‘http://duanziwang.com/category/%E4%B8%80%E5%8F%A5%E8%AF%9D%E6%AE%B5%E5%AD%90/’
i=random.randint(1,49)
url=u+str(i)+‘/’
html = getHTMLText(url)
fillUnivList(uinfo, html)
k=random.randint(0,9)
return printUnivList(uinfo,k)
def fill2(ulist,html):
soup = BeautifulSoup(html, “html.parser”)
for tr in soup.find_all(‘div’,‘article block untagged mb15 typs_hot’):
if isinstance(tr, bs4.element.Tag):
tds = tr.find(‘div’,‘content’)
tdss=tds(‘span’)
reg = re.compile(‘<[^>]*>’)
text=reg.sub(‘’,str(tdss))
regg = re.compile(‘\[|\]|\n’)
text=regg.sub(‘’,text)
ulist.append(text)
def getjoke():
ulist=[]
u=‘https://www.qiushibaike.com/text/page/’
i=random.randint(1,13)
url=u+str(i)+‘/’
html=getHTMLText(url)
fill2(ulist,html)
k=random.randint(0,16)
#print(str(ulist[k]))
return str(ulist[k])
def getHTMLText2(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “”
def geturl(url,text):
html=getHTMLText2(url)
soup = BeautifulSoup(html, “html.parser”)
for tds in soup.find_all(‘a’):
#print(tds.string)
if str(tds.string) in text:
#print(tds.attrs[‘href’])
return tds.attrs[‘href’]
return ‘’
def getmoreurl(url):
html=getHTMLText2(url)
soup = BeautifulSoup(html, “html.parser”)
try:
li=soup.find_all(‘li’,attrs={‘class’:‘articleTitle fl’})
k=random.randint(0,len(li)-1)
return lik[0].attrs[‘href’]
except:
return ‘’
def getsen(url):
html=getHTMLText2(url)
soup = BeautifulSoup(html, “html.parser”)
try:
li=soup.find(‘p’)
reg = re.compile(‘
.*’)
l=reg.findall(str(li))
#print(l)
k=random.randint(0,len(l)-1)
text=re.findall(‘[\u4e00-\u9fa5]+’,l[k])
x=‘’
if len(text):
for t in text[:-2]:
x=x+t+‘,’
return x+text[-1]+‘。’
else:
return “不好意思,出了点小问题,请重试!”
except:
return “抱歉,没找到你想要的”
def getsentance(text):
start_url = ‘http://www.siandian.com’
urll=‘http://www.siandian.com/tags.html’
end1=geturl(urll,text)
if end1==‘’:
return “抱歉,没有找到你想要的。”
else:
end2=getmoreurl(start_url+end1)
if end2==‘’:
return “抱歉,没有找到你想要的。”
else:
#print(start_url+end2)
return getsen(start_url+end2)
def xiaotang(s):
sign=1;
while(sign):
if ‘段子’ in s:
while(‘段子’ in s or ‘继续’ in s or ‘再来’ in s or s==‘’):
return getduanzi()
elif ‘笑话’ in s:
while(‘笑话’ in s or ‘继续’ in s or ‘再来’ in s or s==‘’):
return getjoke()
elif ‘句’ in s or ‘话’ in s:
return getsentance(s)
elif ‘傻子’ in s or ‘草’ in s or ‘日’ in s:
return ‘这是脏话不可以说哦’
elif ‘二’ in s or ‘垃圾’ in s or ‘傻逼’ in s:
t=‘你是魔鬼吗?’
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!