TENLIU2099-CSDN博客

原创从Seq2seq到Pointer-Generator Networks

文章目录1 seq2seq1.1 为什么诞生seq2seq1.2 基本概述1.3 训练和预测2 注意力机制 Attention2.1 为什么会诞生Attention2.2 基本概述内容向量权重$a_{i,j}$得分函数3 poniter-network 指针网络3.1 为什么诞生pointer-network3.2 概述4 pointer-generator network 指针生成网络4.1 为...

2019-05-26 19:10:01 1413 2

原创 tenliu的爬虫（8）-页面提取之beautifulsoup

文章目录历史回顾安装介绍加载html四种对象类型定位节点通过标签名称定位加入节点关系选择多个标签加入正则表达式（标签名）通过属性的键值选择标签加入正则表达式（属性）节点内文本stringstrings节点属性其他历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习6.页面提取之正则表达式...

2018-11-25 16:19:50 352

原创 tenliu的爬虫（7）-页面提取之xpath

历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习6.页面提取之xpathps：如何用浏览器抓包分析爬虫可以分成页面下载和页面解析两个部分页面解析就是从源码中提取出我们需要的数据的过程xpath学习Xpath 用于在 XML 文档中通过元素和属性进行导航。直白点说，xpath...

2018-11-25 16:14:37 419

原创 tenliu的爬虫（6）- 页面提取之正则表达式

文章目录历史回顾正则语法python正则提取文章标题提取无序列表历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习ps：如何用浏览器抓包分析之前个人博客网站的服务器域名等到期未续，导致部分示例中www.tenliu.com的页面失效，但不影响正常教程正则也是爬虫中页面提取的利器，如...

2018-11-25 16:09:01 249

原创 tenliu的爬虫（5）-requests学习

更多内容请访问我的个人博客www.tenliu.top历史回顾：爬虫专题大纲爬虫-抓包分析urllib、urllib2、requests概述及三者关系爬虫-urllib学习爬虫-urllib2学习通过以上学习，爬虫算是入门了，掌握urllib、urllib2我们已经具备了可以抓取网上大部分页面的能力了。但是我们前面也已经讲了urllib和urllib2的槽点，可以用来做

2018-01-20 10:15:19 488

原创 tenliu的爬虫（4）-urllib2学习

更多内容请访问我的个人博客www.tenliu.top前言历史回顾： - 爬虫专题大纲 - 爬虫-抓包分析 - urllib、urllib2、requests概述及三者关系 - 爬虫-urllib学习我们知道通过urllib可以编写简单的爬虫，但是也存在很大的问题。 python基金会不得不推出urllib的增强版urllib2。urllib2方法和类概述ur

2018-01-20 10:11:53 398

原创 tenliu的爬虫（3）-python的urllib库

更多内容请访问我的个人博客www.tenliu.top前言历史回顾：爬虫专题大纲爬虫-抓包分析urllib、urllib2、requests概述及三者关系爬虫-urllib学习学习第一个库：urllib我们先从urllib开始学习吧。既然是爬虫。我们就有个抓取的目标啊。我做了一个页面，可以作为我们抓取的目标来练习。在这个页面查你可以查ip代理、ip物理地址、或

2018-01-20 10:07:56 461

原创 tenliu的爬虫（2）-python库urllib、urllib2、requests关系

更多内容请访问我的个人博客www.tenliu.top开篇语抓取始终是一个很大的需求，小到单个页面，某个站点，大到搜索引擎（百度、谷歌）的全网抓取。只要人能看到的东西，理论上都是爬虫可以获取的。不论静态页面还是动态页面。也不论pc端的页面还是移动端的app。话有点大，但这就是本系列的目的。爬虫编程，有很多语言可选，python、php、go、java···甚至是c。这里我们选择

2018-01-20 10:03:12 466

原创 tenliu的爬虫-抓包分析

利用浏览器抓包，是爬虫中的很实用的技能。在爬虫编程之前，我们要对抓取的目标页面有所了解，比如浏览器的这个请求这个页面中间都经历了什么，数据是怎么发送和返回的。抓包的作用我把抓包分析的作用简单列一下：分析请求的headers等等，可以加载到你的爬虫中，伪装成浏览器。往往可以躲过简单的反扒策略登录状态获取，如果我们在浏览器中登录，抓包拿到cookies，加到我们的爬虫中，往往就可以绕过

2018-01-20 09:53:39 639

原创 tenliu的爬虫（1）-爬虫知识整理大纲

更多内容请访问我的个人博客www.tenliu.top爬虫看似简单，但是深入学习还是挺有意思的。我学习爬虫也有段时间了，现在开这个专题，算是一个回顾。在这里列一个大纲：基本爬虫知识python库urllib、urllib2、requests urllib、urllib2、request三者关系urllib学习urllib2学习requests学习ps：如何用浏览器抓包分析ps

2018-01-11 16:34:54 683

原创 BloomFilter(布隆过滤器)原理和python支持库

更多内容请访问我的个人博客www.tenliu.top简介 Bloom Filter（布隆过滤器）是一种多哈希函数映射的快速查找算法。通常应用在需要快速判断一个元素是否属于集合，但是并不是严格要求100%正确的场合。即Bloom Filter是会误判的，但是它只会把不存在于集合中的元素误判成存在于集合中，而不会把存在于集合中的元素误判成不存在集合中。场景我最初使用

2017-10-20 19:43:49 6655

原创 python操作hbase 远程连接

更多内容请访问我的个人博客目的用python操作hbase。这里是在linux上搭建的是一个测试环境，所以hbase是单机版本安装，安装thrift是为了支持python操作hbase。网上也有类似教程，但是坑也不少，这里记录我的安装和使用过程。我的linux安装习惯我linux安装的习惯，是会在工具目录下（例如tools），建立build和src两个文件。src文件放

2017-10-19 20:14:07 5011 1

原创 LDA原理（3）知识储备之PLSA

更多内容请访问我的个人博客www.tenliu.top在讲PLSA概率潜在语义模型（似乎比LSA更容易解释啊）之前我们先定义一些表示:D表示语料库M表示该语料库中有M篇文档V表示语料库中的词的个数（当然重复的词只算一次）N表示语料库中词的词频（重复的也算），那么V个词，每个词的- 词频记为nin_id就是语料库中的一篇文档，wiw_i表示文档中的第i个词注意这是“概率

2017-09-25 17:48:34 357

原创 LDA原理（2）知识储备之贝叶斯派和概率派

更多内容请访问我的个人博客www.tenliu.top介绍贝叶斯派和概率派概率派认为要推断的参数是固定的值，虽然概率是未知的，但是一定是固定的值，同时样本是随机的，既然这样，他们的侧重点就是研究样本空间，比如我们不知道抛硬币正面朝上的概率，那概率派的思路就是做很多次的抛硬币的实验，试验次数越多，越能逼近概率。贝叶斯派思考的角度不同，他们认为参数是随机变量，样本是固定的，所以他们的研究重

2017-09-25 17:45:45 719

原创 LAD原理（1）知识储备之函数和分布

更多内容请访问我的个人博客www.tenliu.top简介LDA是一种主题模型，它基于这样的思想：人写文章可以理解成这样的过程，再写一篇文档之前，先有这篇文档的主题分布（文档-主题），每一个主题也有词分布（主题-词）知识储备我们先从一些基础概念讲起Gamma函数先看公式 Γ(x)=∫∞0tx−1e−tdt\Gamma(x)=\int_{0}^{\infty}t_{

2017-09-25 17:36:56 1206

原创 twisted之defer延迟

更多内容请访问我的个人博客www.tenliu.toptwisted之defer工作中一项目，其中一个环节比较耗时，又无法解耦合，流程中下一环节必须等待这个环节结果。由此想到异步框架twisted的延迟defer，之前只是知道有这么个东西。defer就是使耗时的任务暂时迅速返回一个deferred对象，让流程可以继续执行下去，不再这里耗费时间。而耗时任务则在子线程执行，结果通过回调函数

2017-09-01 18:52:14 852

TENLIU2099的博客