![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 77
qq_41534566
这个作者很懒,什么都没留下…
展开
-
爬取斗图网表情包之后斗图会输?不存在的
前言: 本文非常浅显易懂,可以说是零基础也可快速掌握。如有疑问,欢迎留言,笔者会第一时间回复。 一、分析表情包网址 1、进入斗图啦网址,点击**“最新表情”**,再点击第二、第三页,得出规律如下: 第一页:www.doutula.com/photo/list/… 第三页:www.doutula.com/photo/list/… 第四页:www.d...原创 2018-11-10 11:16:38 · 1706 阅读 · 0 评论 -
如何简单高效地部署和监控分布式爬虫项目
需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉命令行操作太麻烦,希望能够通过浏览器直接部署和运行项目 专业用户: 有 N 台云主机,通过 Scrapy-Redis 构建分布式爬虫 希望集成身份认证 希望在页面上直观地查看所有云主机的运行状态 希望能...原创 2018-11-15 15:13:00 · 571 阅读 · 0 评论 -
自己动手实现神经网络分词模型
分词作为NLP的基础工作之一,对模型的效果有直接的影响。一个效果好的分词,可以让模型的性能更好。 在尝试使用神经网络来分词之前,我使用过jieba分词,以下是一些感受: 分词速度快 词典直接影响分词效果,对于特定领域的文本,词典不足,导致分词效果不尽人意 对于含有较多错别字的文本,分词效果很差 后面两点是其主要的缺点。根据实际效果评估,我发现使用神经网络分词,这两个点都有不错的提升。 本...原创 2018-12-05 15:12:25 · 687 阅读 · 0 评论 -
一个例子了解迁移学习
迁移学习 对于传统机器学习而言,要求训练样本与测试样本满足独立同分布,而且必须要有足够多的训练样本。而迁移学习能把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),目标领域往往只有少量有标签样本,使得目标领域能够取得更好的学习效果。 迁移方式 样本迁移,在源领域中找出与目标领域相似的样本,增加该样本的权重,使其在预测目标与的比重加大。 特征迁移,源领域与目...原创 2018-12-13 14:50:02 · 2179 阅读 · 0 评论 -
Python 的枚举类型
起步 Python 的原生类型中并不包含枚举类型。为了提供更好的解决方案,Python 通过 PEP 435 在 3.4 版本中添加了 enum 标准库。 枚举类型可以看作是一种标签或是一系列常量的集合,通常用于表示某些特定的有限集合,例如星期、月份、状态等。在没有专门提供枚举类型的时候我们是怎么做呢,一般就通过字典或类来实现: Color = { 'RED' : 1, ...原创 2018-12-11 17:43:13 · 379 阅读 · 0 评论