自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Python爬虫编程实践--大作业

感谢Datawhale组织的学习,经过这几天的学习,已经初步了解了简单的python爬虫实现,这里简单介绍一个腾讯新闻的爬虫实现。爬取腾讯新闻了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选至少爬50个出来,存储成csv之所以要使用selenium...

2020-04-27 23:14:46 2823

原创 Python爬虫编程实践--task03

主要内容:selenium自动化session和cookieip代理seleniumselenium是一个自动化测试工具selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以启动c...

2020-04-25 15:26:06 897

原创 Python爬虫编程实践--task02

主要学习内容:Beautiful Soup库的入门xpath的使用re的使用1. Beautiful Soup库入门Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 H...

2020-04-23 21:45:09 1465

原创 Python爬虫编程实践--task01

主要内容HTTP基础HTML基础requests.get的使用API的使用HTTPHTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成...

2020-04-21 18:27:35 2152

原创 如何让Jupyter Notebook支持pytorch

前言因为最近想学深度学习,所以迷上了python,感觉Jupyter Notebook很便捷很方便,所以在自己的电脑上面搞一搞,过程很曲折,不过后来终于成功了,在此记录一下。Anaconda安装首先,安装了Anaconda3,有了Anaconda的环境就会很方便。Anaconda官网的下载巨慢无比,所以我采用了清华镜像下载:清华大学开源软件镜像站,进去后根据自己的需求选择匹配的版本,我选了最...

2020-02-28 12:16:34 33952 63

原创 动手学深度学习-文本分类;数据增强;模型微调

一、文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。后...

2020-02-25 20:44:56 1205

原创 动手学深度学习-优化算法进阶;word2vec;词嵌入进阶

一、优化算法进阶11.6 Momentum在 Section 11.4 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradie...

2020-02-25 20:36:21 690

原创 动手学深度学习-批量归一化和残差网络;凸优化;梯度下降

一、批量归一化(BatchNormalization)对输入的标准化(浅层模型)处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化(深度模型)利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置:全连接层中的仿射变换和激活函数之间。全连接:...

2020-02-25 20:20:12 758

原创 动手学深度学习-卷积神经网络基础;leNet;卷积神经网络进阶

前言这次学习《动手学深度学习》的打卡主要内容有三:卷积神经网络基础,leNet和卷积神经网络进阶一、卷积神经网络基础本节介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(ker...

2020-02-18 21:31:34 214

原创 动手学深度学习-机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

今天学习了机器翻译及相关技术、注意力机制与Seq2seq模型、Transformer这三节的内容,特来打卡。一、机器翻译及相关技术机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。import osos.listdir('/home/kesci/...

2020-02-16 22:16:27 782

原创 动手学深度学习-过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:Ht=ϕ(XtWxh+Ht−1Whh+bh)H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h})Ht​=ϕ(Xt​Wxh​+Ht−1​Whh​+bh​)GRU:Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(X...

2020-02-15 22:49:57 2954

原创 动手学深度学习-文本预处理;语言模型;循环神经网络基础

一、文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型其中建立字典需要经过的步骤为:去重,统计词频 筛掉部分词 添加一些特殊的token 将token映射到唯一索引 将索引映射到t...

2020-02-14 21:23:43 254

原创 动手学深度学习-线性回归;Softmax与分类模型;多层感知机

前言由于新冠病毒的影响,只能窝在家中自我关禁闭,因此参加了深度学习公益训练营的活动,结合《动手学深度学习》这本书,对深度学习进行系统性的学习与实践,感到获益良多。一、线性回归回归问题通常对连续值进行预测,而分类问题通常对离散的值进行预测。线性回归输出是⼀个连续值,因此适⽤于回归问题。回归问题在实际中很常⻅,如预测房屋价格、⽓温、销售额等连续值的问题;分类问题包括图像分类、垃圾邮件识别、...

2020-02-14 20:51:55 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除