python爬虫提取教学_Python爬虫大数据采集与挖掘教与学(教学大纲)

217d1ae548fc7c5818842cd513c5e980.png

《Python爬虫大数据采集与挖掘》

课程教学大纲

院系:                                               日期:2019年10月 10日

课程代码

课程名称

Python爬虫大数据采集与挖掘

学 分 数

2

周学时

2

授课语言

中文

课程性质 

√核心课程√通识教育选修□大类基础√专业必修√专业选修□其他

教学目的

本课程主要针对大数据技术与应用、数据科学、计算机与电子信息等专业2年级以上本科生,主要讲解互联网大数据采集技术及各种典型爬虫的技术,并结合相关的开源包使用Python进行实现,以加深学生对所学内容的理解。通过本课程教学,使学生对互联网大数据采集技术有一个全面的了解,掌握基本的信息内容采集、提取和分析方法,并且具备一定的针对具体信息采集需求的实际运用和解决能力。

基本内容简介

互联网大数据采集技术与实现概况;Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范;普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等;用于爬虫应用中的典型大数据处理与挖掘技术;以及综合运用各种爬虫及处理技术进行新闻阅读器的分析设计;理解爬虫用于SQL注入安全检测的方法。

基本要求:

要求理解互联网大数据采集的技术体系、主要技术;掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用;理解对爬虫采集到的Web页面数据的处理方法、文本处理与相关的挖掘方法,并会使用Python进行技术实现。

授课方式:

本课程以讲课为主,在本课程的教学过程中将运用课堂讲解、课堂讨论等形式为学生提供互动式交流,同时根据教学进度设置若干配套实验。

课内外讨论或练习、实践、体验等环节设计:

课外需认真完成布置的作业,理解和巩固所学的内容。

考核和评价方式(提供学生课程最终成绩的分数组成,体现形成性的评价过程):

考核包括平时成绩(考勤、项目、实验)以及期末考试,分别占课程总成绩中35%和65%。期末的考核形式为闭卷考试。

《Python爬虫大数据采集与挖掘》

教学进度表

(建议)

教学内容安排 (按32学时共计16周,具体到每节课内容):

第一周:

第1节课:互联网大数据采集概念、重要性、应用现状等;第2节课:互联网大数据采集的技术体系、法律与技术边界、技术展望。

第二周:

第1节课:HTML语言规范;第2节课:网页编码、正则表达式。

第三周:

第1节课:Web服务器、应用架构、Robots;第2节课:HTTP协议、状态保持技术。

第四周:

第1节课:普通爬虫体系、requests;第2节课:异常处理、链接提取

第五周:

第1节课:爬行策略与实现、PR算法;第2节课:动态页面及采集技术

第六周:

第1节课:动态页面、Ajax、Cookie;第2节课:模拟浏览器技术

第七周:

第1节课:静态页面采集的实验;第2节课:动态页面采集的实验

第八周:

第1节课:Web页面抽取技术与思路介绍;第2节课:基于结构的抽取方法、主要开源包。

第九周:

第1节课:主题爬虫与技术框架、主题表示;第2节课:主题表示、相关度计算、例子。   

第十周:

第1节课:Web信息抽取的实验;第2节课:主题爬虫实现的实验。

第十一周:

第1节课:DeepWeb概念、特征与采集要求、技术架构;第2节课:技术架构与实现例子。

第十二周:

第1节课:微博采集方法概述、平台授权、API介绍;第2节课:Python调用API采集、爬虫方式采集。

第十三周:

第1节课:反爬虫概述、反爬虫技术、反反爬虫技术;第2节课:文本分析概述与预处理。

第十四周:

第1节课:向量空间与文本分类;第2节课:主题建模、可视化技术。

第十五周:

第1节课:常见应用模式、新闻阅读器;第2节课:新闻阅读器、SQL注入检测。

第十六周:

综合实验、复习、考试

64f1136a1ab2471708611dac897815f5.png

提供300分钟视频讲解,教学大纲、课件、教案、习题答案、程序源码等配套资源。

39f36c9d71896c525b237086dd4a7aa7.png

扫码,优惠购书

凡是在京东购书的用户,可以将订单信息和评价发到itbook8@163.com,将会获取超值大礼包(包括案例源码,超多的视频教程,数据集等资源)

配书视频演示

5f3182e1b38b331d93bed3d4112129f2.png

c8ac371b65637b553193a1b95df657c1.png

72b3b03133fe38f2107d4e03305078bc.png

25d0f73996aba9175e88d8616caebef9.png

a7959021abbca1691360923280ef9480.png

e556be5a2360b889094f4299066145b0.png

9f34e2c9e0029255b510277eb0e5a165.png

a3cafda9791e4c36ab8e86bee05ef1f3.png

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值