CS224n——lecture3课程导学

1.1 复习第一周课程内容

1.1.1 word vector

词向量的表示方法一般有两种,一种是one-hot representation(独热编码,稀疏表达),还有一种是distributed representation(稠密表达),一般用到的都是分布式表达的词向量表示方法。

word2vec是稠密表达的一种算法,是一种自编码的无监督训练算法。word2vec有两种模型,一种是CBOW,一种是Skip-gram。
在这里插入图片描述
Word2vec的损失函数可以表示为: l o g   p ( o ∣ c ) = l o g e x p ( u o T v c ) ∑ w = 1 V ( u w T v c ) log\space p(o|c)=log\frac{exp(u_o^Tv_c)}{\sum_{w=1}^V(u_w^Tv_c)} log p(oc)=logw=1V(uwTvc)exp(uoTvc)

因为原始训练方法训练比较复杂繁琐,因此提出了负采样的方法,负采样方法的损失函数计算公式为: J t ( θ ) = l o g σ ( u o T v c ) + ∑ i = 1 k E j ∼ P ( w ) [ l o g   σ ( − u j T v c ) ] J_t(\theta)=log \sigma(u_o^Tv_c)+\sum_{i=1}^kE_{j\sim P(w)}[log\space \sigma(-u_j^Tv_c)] Jt(θ)=logσ(uoTvc)+i=1kEjP(w)[log σ(ujTvc)]
该算法使用梯度下降进行参数更新: θ n e w = θ o l d − α ▽ θ J ( θ ) \theta^{new}=\theta^{old}-\alpha \triangledown_{\theta}J(\theta) θnew=θoldαθJ(θ)

word2vec模型性能的评价方法分为内部评价和外部评价;glove是全局统计方法+word2vec的方法;

1.2 分类器

1.2.1 决策树

在这里插入图片描述

优点:

  • 便于理解、展示;
  • 特征可以是离散、缺失;

缺点:

  • 容易过拟合;
  • 数值型特征不好处理;
  • 特征多的时候树过大;

1.2.2 熵(Entropy)

H ( X ) = ∑ i = 1 n p ( x i ) l o g 1 p ( x i ) H(X)=\sum_{i=1}^np(x_i)log\frac{1}{p(x_i)} H(X)=i=1np(xi)logp(xi)1

1.2.3 交叉熵

交叉熵计算的是两个概率分布的距离,假设现在有两个概率分布,一个是样本分布概率p,一个是模型概率分布q。两个概率之间的交叉熵就是 H ( p , q ) = − ∑ i p ( x i ) l o g   q ( x i ) H(p,q)=-\sum_ip(x_i)log\space q(x_i) H(p,q)=ip(xi)log q(xi)交叉熵越小,表示真实概率分布和模型估计概率分布越接近。我们要优化模型,目的就是为了使交叉熵变小。

1.2.4 决策平面

决策平面 p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = 1 \frac{p(y=1|x)}{p(y=0|x)}=1 p(y=0x)p(y=1x)=1
p ( y = 1 ∣ x ) > p ( y = 0 ∣ z ) p(y=1|x)>p(y=0|z) p(y=1x)>p(y=0z),样本被分到 y = 1 y=1 y=1类;
p ( y = 1 ∣ x ) < p ( y = 0 ∣ x ) p(y=1|x)<p(y=0|x) p(y=1x)<p(y=0x),样本被分到 y = 0 y=0 y=0类;

1.3 命名实体识别(Named Entity Recognition)

在这里插入图片描述

命名实体识别的发展历史

  • 早期方法:基于规则、基于字典;应用正则表达式,符合某种结构的认为是某一种词性。
  • 传统机器学习:HMM、MEMM、CRF;
  • 深度学习:RNN-CRF、CNN-CRF;
  • 近期方法:注意力模型、迁移学习、半监督学习;

命名实体识别类别

  • 三大类:实体类、时间类、数字类;
  • 七小类:人名、地名、组织机构名、时间、日期、货币、百分比;

实际应用中,NER模型通常只要识别出人名、地名、组织结构名,可以定义实际需要的NER类别;

  • B-ORG:组织开始名
  • I-ORG:组织中间名
  • E-ORG:组织结束名
  • B-PER:人名
  • I-PER
  • E-PER
  • B-LOC:地名
  • I-LOC
  • E-LOC

NER当前学术界认为是已经解决的问题,但应用中歧义和错误仍然很多;
因为命名实体识别的训练语料是有限的,主要的训练语料是新闻语料,实体类别也是固定的,一般不会很多。通过训练数据,测试效果可能不错,但是在实际应用中一般应用于比较难的任务,这时效果比较差。NER本身是一个开放性问题,实体是不断增加的,网络词汇会不断增加,NER在没有足够训练语料的情况下很难取得较好的结果,所以NER在实际应用中的效果并没有很好。

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
项目描述:建立购物小商城平台. 实现了前台页面系统。 技术描述:通过Spring 主框架来管理Struts2和Hibernate 框架搭建的电商小平台,用MySQL数据库并创建了表有用户表,订单表,商品表,商品分类表,商品内容表,购物车表等来存储数据。用到hibernate….zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看rEADME.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值