Python师资培训系列课程

学习目标:

  • 12小时掌握Python爬虫的原理,实现及进阶应用
  • 12小时掌握Python文本分析的案例实战关键技能

学习内容:

爬虫+文本分析

爬虫:

  1. 爬虫基础

    1.1 爬虫基本概念

    1.2 通用爬虫和聚焦爬虫

    1.3 http的请求与响应

    1.4 网页基础知识

  2. 简单爬虫实现

    2.1 爬虫基本原理

    2.2 爬虫与反爬虫

    2.3 正则表达式

    2.4 requests库实现http请求

    2.4.1 实战1:豆瓣电影分类排行榜(JSON数据格式)
    
    2.4.2 实战2:猫眼电影排行榜数据提取
    
    2.4.3 实战3:基于cookies爬取豆瓣短评分析
    

    2.5 Beautiful Soup

    2.5.1 网页的解析
    
    2.5.2 网页元素的选取
    
    2.5.3 实战:从中国天气网获得天气数据;爬取豆瓣电视剧评分
    
  3. 爬虫高级技术进阶

    3.1 多页面的爬取

    3.2 动态渲染页面的爬取

    3.3 基于selenium的自动化爬取技术

    3.4 实战:多页面爬取京东商品数据

文本分析:

  1. 文本分析概述

    1.1 自然语言处理的层次

    1.2 自然语言处理的难点

    1.3 自然语言处理的流派

  2. 文本分析关键技术

    2.1 常用文本整理和清洗方法

    2.1.1 句子拆分
    
    2.1.2 词拆分
    
    2.1.3 过滤重复的单词
    
    2.1.4 删除停用词
    
    2.1.5 拼写检查
    
    2.1.6 大小写变换
    
    2.1.7 文本翻译
    
    2.1.8 词干提取
    
    2.1.9 提取电子邮件或URL
    

    2.2 中文分词技术

    2.2.1 规则分词
    
    2.2.2 统计分词
    
    2.2.3 混合分词
    
    2.2.4 实战:结巴分词,对爬取的豆瓣数据分析,统计词频,绘制词云图
    

    2.3 词性标注与命名实体识别

    2.3.1 词性标注
    
    2.3.2 命名实体识别
    
    2.3.3 实战:基于jiebaku 的词性标注和基于HanLP的命名实体识别
    

    2.4 文本向量化

    2.4.1 离散化表示
    
    2.4.2 分布式表示
    
    2.4.3 实战:利用word2vec计算西游记中人物相似性
    

    2.5 关键词提取

    2.5.1 TF-IDF算法
    
    2.5.2 TextRank算法
    
    2.5.3 LDA算法
    
    2.5.4 实战:基于LDA主题模型进行新闻关键词提取
    
    2.5.5 实战:网页相似性分析
    

    2.6 文本分类

    2.6.1 分类算法介绍
    
    2.6.2 实战:贝叶斯新闻分类
    
    2.6.3 实战:虚假评论分类
    

    2.7 文本聚类

    2.7.1 kmeans算法介绍
    
    2.7.2 实战:百度百科数据聚类
    
    2.7.3 实战:豆瓣书籍数据聚类
    

    2.8 文本情感分析

    2.8.1 基于规则的情感分析
    
    2.8.2 基于机器学习模型的情感分析
    
    2.8.3 实战:基于豆瓣电影的情感分析
    
    2.8.4 实战:在线情感分析系统
    

学习时间:

远程直播+录播回放

  • 爬虫:2024年4月13-14日(两天)
  • 文本分析:2024年4月20-21日(两天)
  • 9:00-12:00; 14:00-17:00; 答疑

Python师资培训系列:

北邮博导亲授+答疑

  • Python编程基础与数据清洗
  • Python机器学习
  • Python机器学习进阶

试听咨询:

尹老师

电话:13321178792

QQ:42884447

WeChat:JGxueshu

  • 28
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值