python爬大学生就业信息报告_python-网络爬虫实习报告

s.gif python-网络爬虫实习报告

(13页)

c401ad10-46e1-44c5-8798-40375155c5e21.gif

本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!

9.90 积分

| Python 网络爬虫实习报告 | 目录目录 一、选题背景一、选题背景- 2 - 二、爬虫原理二、爬虫原理- 2 - 三、爬虫历史和分类三、爬虫历史和分类.- 2 - 四、常用爬虫框架比较四、常用爬虫框架比较.- 5 - 五、数据爬取实战(五、数据爬取实战(豆瓣网爬取电影数据豆瓣网爬取电影数据)) .- 6 - 1 分析网页 .- 6 - 2 爬取数据 .- 7 - 3 数据整理、转换 .- 10 - 4 数据保存、展示 .- 12 - 5 技术难点关键点 .- 12 - 六、总结六、总结- 14 - | 一、一、选题背景选题背景 二、二、爬虫原理爬虫原理 三、三、爬虫历史和分类爬虫历史和分类 四、四、常用爬虫框架比较常用爬虫框架比较 ScrapyScrapy 框架框架: :Scrapy 框架是一套比较成熟的 Python 爬虫框架,是使 用 Python 开发的快速、高层次的信息爬取框架,可以高效的爬取 web 页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数 据挖掘、数据监测、自动化测试等。 CrawleyCrawley 框架框架: :Crawley 也是 Python 开发出的爬虫框架,该框架致力 于改变人们从互联网中提取数据的方式。 PortiaPortia 框架框架: :Portia 框架是一款允许没有任何编程基础的用户可视化 地爬取网页的爬虫框架。 newspapernewspaper 框架框架: :newspaper 框架是一个用来提取新闻、文章以及内容 分析的 Python 爬虫框架。 Python-goosePython-goose 框架:框架:Python-goose 框架可提取的信息包括:文章 主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视 频;元描述;元标签 | 五、五、数据爬取实战(豆瓣网爬取电影数据)数据爬取实战(豆瓣网爬取电影数据) 1 分析网页分析网页 # # 获取获取 htmlhtml 源代码源代码 defdef __getHtml():__getHtml(): datadata = = [][] pageNumpageNum = = 1 1 pageSizepageSize = = 0 0 try:try: whilewhile (pageSize(pageSize “)f.write(““) f.write(“Insertcharset='UTF-8'Insert titletitle here“)here“) f.write(““)f.write(““) f.write(“f.write(“爬取豆瓣电影爬取豆瓣电影“)“) f.write(“f.write(“ 作者:刘文斌作者:刘文斌“)“) f.write(“f.write(“ 时间:时间:“ “ + + nowtimenowtime + + ““)““) | f.write(““)f.write(““) f.write(““)align=center“) f.write(““)f.write(““) f.write(““)f.write(““) f.write(“color=green电影电影 “)“) #f.write(“color=green 评分评分“)“) f.write(“color=green排排 名名“)“) #f.write(“color=green 评价人数评价人数“)“) f.write(“color=green导演导演 “)“) f.write(““)f.write(““) f.write(““)f.write(““) f.write(““)f.write(““) forfor datadata inin datas:datas: forfor i i inin range(0,range(0, 25):25): f.write(““)f.write(““) f.write(“%s“align:center'%s“ % % data['title'][i])data['title'][i]) | # # f.write(“%s“align:center'%s“ % % data['rating_num'][i])data['rating_num'][i]) f.write(“%s“align:center'%s“ % % data['range_num'][i])data['range_num'][i]) # # f.write(“%s“align:center'%s“ % % data['rating_people_num'][i])data['rating_people_num'][i]) f.write(“%s“align:center'%s“ % % data['movie_author'][i])data['movie_author'][i]) f.write(““)f.write(““) f.write(““)f.write(““) f.write(““)f.write(““) f.write(““)f.write(““) f.write(““)f.write(““) f.write(““)f.write(““) f.close()f.close() ifif __name____name__ ==== '__main__':'__main__': datasdatas = = [][] htmlshtmls = = __getHtml()__getHtml() forfor i i inin range(len(htmls)):range(len(htmls)): datadata = = __getData(htmls[i])__getData(htmls[i]) datas.append(data)datas.append(data) | __getMovies(datas)__getMovies(datas) 4 4 数据保存、展示数据保存、展示 结果如后图所示: 5 技术难点关键点技术难点关键点 数据爬取实战(搜房网爬取房屋数据)数据爬取实战(搜房网爬取房屋数据) | fromfrom bs4 importimport BeautifulSoup importimport requests rep = requests.get('http://newhouse.fang.com/top/''http://newhouse.fang.com/top/') rep.encoding = “gb2312““gb2312“ # 设置编码方式 html = rep.text soup = BeautifulSoup(html, 'html.parser''html.parser') f = open('F://fang.html''F://fang.html', 'w''w',encoding='utf-8''utf-8') f.write(““““) f.write(“Insertcharset='UTF-8'Insert titletitle here“here“) f.write(““““) f.write(““新房成交新房成交 TOP3“TOP3“) f.write(““align=center“) f.write(““房址房址““) f.write(““成交量成交量““) f.write(““均价均价““) forfor li inin soup.find(“ul““ul“,class_=“ul02““ul02“).find_all(“li““li“): name=li.find(“div““div“,class_=“pbtext““pbtext“).find(“p““p“).text chengjiaoliang=li.find(“span““span“,class_=“red-f3““red-f3“).text trytry: | junjia=li.find(“div““div“,class_=“ohter““ohter“).find(“p““p“,class_=“gray-“gray- 9“9“)#.text.replace('?O', '平方米') exceptexcept Exception asas e: junjia=li.find(“div““div“,class_=“gray-“gray- 9“9“)#.text.replace('?O', '平方米') f.write(“%s“color=red%s“ % name) f.write(“%s“color=blue%s“ % chengjiaoliang) f.write(“%s“color=green%s“ % junjia) printprint(name) f.write(““““) f.write(““““) | 六、总结六、总结 教师评语:教师评语: 成绩:成绩: 指导教师:指导教师: 关 键 词: python 网络 爬虫 实习 报告

bang_tan.gif 天天文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值