- 博客(25)
- 收藏
- 关注
原创 Requests库网络爬虫实战一
Requests库网络爬虫实战实例一:京东商品页面的爬取实例二:亚马逊商品页面的爬取实例三:京东商品页面的爬取实例一:京东商品页面的爬取 首先打开 京东页面:https://www.jd.com/ 选择一个商品,这个时候就得到了该商品的URL链接,接着按照以下程序进行编程:import requestsr = requests.get("https://item.jd.com/2967929.html")print(r.status_code)print(r.encoding) 我们首先
2021-07-20 16:41:00 518
原创 网络爬虫之Robots协议
网络爬虫之Robots协议1、Robots协议基本语法2、Robots协议的使用及理解 Robots协议是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,该协议仅约定俗成,道德约束,无法律效益和实质性的安全意义,放在网页的根目录下。 存在该协议的原因请看下图所示:1、Robots协议基本语法# 注释, *代表所有, /代表根目录User-agent: *Disallow: /其中:
2020-12-02 21:17:17 1625 2
原创 Python网页爬虫之Requests库入门
Python网页爬虫之Requests库的学习1.常用的Python IDE工具2.Requsts库(1)get()方法功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1.常用的Python IDE工具文本工具类 IDLE
2020-12-01 20:53:35 682
原创 中文提取关键词总结
针对前面学习的 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)、中英文分词后进行词频统计(包含词云制作)、文本分词后进行关键词提取之TF-IDF算法、关键词提取之TextRank算法,我们已经掌握了中文文本处理的各个步骤的方法,提取关键词的算法及其原理,制作词云的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成文本处理后提取关键词的操作:import jieba...
2020-04-21 11:51:04 1266
原创 文本分词后进行关键词提取之TextRank算法
TextRank是一种文本排序算法,它利用图模型来提取文章中的关键词,是由 Google 搜索的核心网页排序算法 PageRank改编而来。在介绍TextRank前,我们先简单介绍下什么是PageRank。另外,TextRank不仅能进行关键词提取,也能做自动文摘,这篇文章主要介绍它的关键词提取功能。文章目录1、PageRank算法2、TextRank算法3、编程实例1、PageRank...
2020-04-14 10:35:12 2194
原创 文本分词后进行关键词提取之TF-IDF算法
文章目录1、关键词提取2、TF-IDF算法原理3、编程实例1、关键词提取 关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率;在对话系统中,机器可以通过关键词来理解用户意图;在文本分类中,关键词的发现也非常有帮助。关键词能让我们快速了解文章所讲内容,但是网络上...
2020-04-12 21:36:27 6947 1
原创 中英文分词后进行词频统计(包含词云制作)
文章目录1、英文词频统计和词云制作2、中文词频统计和词云制作2.1 错误发现2.2 错误改正 在之前的分词学习后,开始处理提取的词语进行词频统计,因为依据词频是进行关键词提取的最简单方法:1、英文词频统计和词云制作from nltk import word_tokenize #分词处理from nltk.corpus import stopwords #停用词from nltk im...
2020-04-07 12:13:20 5289 1
原创 英文文本分词处理(NLTK)
1、NLTK的安装首先,打开终端(Anaconda Prompt)安装nltk:pip install nltk打开Python终端或是Anaconda 的Spyder并输入以下内容来安装 NLTK 包import nltknltk.download()注意: 详细操作或其他安装方式请查看 Anaconda3安装jieba库和NLTK库。2、NLTK分词和分句 由于英语的句子基...
2020-04-02 17:10:47 30945 7
转载 NLTK词性标注说明
NLTK词性标注说明:CC Coordinating conjunction 连接词CD Cardinal number 基数词DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,half,...
2020-04-02 13:16:32 2103
原创 结巴分词(jieba)词性标注表
当我们进行关键词的选择时,也要考虑词语的词性,关键词以名词或者名词性词组居多,而jieba为自然语言语言中常用工具包,具有对分词的词性进行标注的功能,词性类别如下(重要的词性符号已标记):符号词性Ag形语素a形容词ad副形词an名形词b区别词c连词dg副语素d副词e叹词f方位词g语素h...
2020-03-31 21:04:40 4909
原创 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)
针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:...
2020-03-30 21:28:15 15607 7
原创 调整jieba分词结果
文章目录分词调整分词结果1、添加自定义词典2、动态调整词典3、调整词频分词 通过前面文章 利用jieba对中文进行分词 的介绍,我们知道jieba有三种分词模式:精确模式(jieba.cut(txt))、全模式( jieba.cut(txt,cut_all = True) )、搜索引擎模式( jieba.cut_for_search(txt) )。 其中,jieba.cut 以及 jie...
2020-03-27 10:24:23 3443
原创 中文分词后去除停用词
中文分词后去除停用词 当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的。所以在分词处理以后,我们便会引入停用词去优化分词的结果。 对于停用词,我们可以自己手动添加到一个txt文件中,然后在需要时导入文件,也可以利用已经整理好的停用词表,这样就会方便很多。当然,在已有的停用词表基础...
2020-03-26 11:36:49 18011 2
原创 利用jieba对中文进行分词
1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库•- 中文文本需要通过分词获得单个的词语•- jieba是优秀的中文分词第三方库,需要额外安装•- jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库利用一个中文词库,确定汉字之间的关联概率汉字间概率大的组成词组,形成分词结果除了...
2020-03-24 22:18:18 23856
原创 中文文本预处理
在进行文本分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就中文文本的预处理做一个总结。文章目录1、文本数据准备2、去除指定无用的符号3、让文本只保留汉字4、文本中的表情符号去除5、繁体中文与简体中文转换1、文本数据准备 使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。2、去除...
2020-03-20 17:18:11 4912 2
原创 Python读取文本内容
文章目录综述1、打开文件2、读取内容3、关闭文件 Python读取文件时进行文本处理的前提,在进行读取文件之前,我们先创建一个文本文件作为源文件,例子中文件名为exercise1.txt,文件内容如下:综述 在Python中,读文件主要分为三个步骤:打开文件、读取内容、关闭文件。一般形式如下:try: file = open('/path/to/file', 'r') # ...
2020-03-19 20:29:25 17228
原创 Anaconda3安装jieba库和NLTK库
当我们进行文本处理时,常常需要对文本进行分词处理,但是中文与英文的处理方式确实不一样的:英文主要利用空格进行单词或者句子划分,所以使用的是NLTK分词方法;而中文比英文复杂,需要进行预处理等操作,使用的是jieba分词方法。文章目录1、NLTK库安装2、jieba库安装1、NLTK库安装方法一: 打开Anaconda目录下的Spyder,输入以下代码直接进行下载:import nltk...
2020-03-11 17:41:57 6617
原创 Python基础学习笔记五(用户输入与循环语句)
本文继续对Python基础进行学习,你将学习如何接受用户输入,让程序能够对其进行处理,还将学习如何让程序不断地运行,让用户能够根据需要输入信息,并在程序中使用这些信息。希望我的经验可以帮到大家!有任何疑问可以评论区见呦!注:文中实例均于Jupyter notebook下编译。1. Input( )函数1.1 基本语法和作用函数语法: input([prompt])参数说明:promp...
2020-02-27 20:20:23 1402
原创 Jupyter Notebook 界面认识和快捷操作
本文对Jupyter Notebook 的界面和快捷操作进行认识和学习,有助于大家在了解Jupyter Notebook 的基础上更好进行编程学习,希望我的经验可以帮到大家!有任何疑问可以评论区见呦!文章目录编辑界面的组成1. 名称2. 菜单栏2.1 File2.2 Edit2.3 View2.4 Insert2.5 Cell2.6 Kernel2.7 Help3. 工具条4. 单元4.1 两...
2020-02-26 21:28:18 7906 2
原创 Python基础学习笔记四(字典)
本文继续对Python基础进行学习,你将学习能够将相关信息关联起来的Python字典,学习如何访问和修改字典中的信息,还将学习存储字典的列表、存储列表的字典和存储字典的字典,希望我的经验可以帮到大家!有任何疑问可以评论区见呦!注:文中实例均于Jupyter notebook下编译。文章目录1. 什么是字典2. 使用字典2.1 访问字典中的值2.2 添加键—值对2.3 删除键—值对2.4 修改字...
2020-02-26 17:00:09 543
原创 Python基础学习笔记三(if语句)
本文继续对Python基础进行学习,内容接连上篇文章:Python基础学习笔记二(列表),希望我的经验可以帮到大家!有任何疑问可以评论区见呦!注:文中实例均于Jupyter notebook下编译。文章目录Python学习笔记——if语句1. 基本语法2. 条件测试2.1 检查是否相等2.2 检查是否不相等2.3 比较数字2.4 检查多个条件2.5 检查特定值是否包含在列表中2.6 检查特定...
2020-02-25 22:12:33 812
原创 Python基础学习笔记二(列表)
本文继续Python基础进行学习,内容接连上篇文章:Python基础学习笔记一(变量和数据类型),希望我的经验可以帮到大家!注:文中实例均于Jupyter notebook下编译。文章目录Python学习笔记——列表1.1 列表元素1.2 组织列表1.3 操作列表Python学习笔记——列表 列表是Python中内置有序可变序列,列表的所有元素放在一对中括号“[ ]”中,并使用逗号分...
2020-02-09 21:01:26 588
原创 Python基础学习笔记一(变量和数据类型)
本文基于Python进行学习,从它的简介、变量、语句、函数等出发,介绍了它的基础语法及使用,希望我的经验可以帮到大家!注:文中实例均于Jupyter notebook下编译。Python学习笔记——变量和数据类型1、Python介绍1.1 Python简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本...
2020-02-09 20:18:42 431
原创 快速学习linux系统
Linux操作系统在短短的几年之内得到了非常迅猛的发展,这与linux具有的良好特性是分不开的。Linux包含了UNIX的全部功能和特性。简单来说,linux具有以下主要特性:遵循GNU GPL,开放性,多任务,多用户,设备独立性,提供了丰富的网络功能,可靠的系统安全,良好的可移植性。为了大家更好的学习的Linux系统,特地整理了以下Linux基本命令,希望可以帮到大家!1、强大好用的Shel...
2020-01-07 23:10:07 372
原创 腾讯云申请+MobaXterm连接服务器+Anaconda环境配置——纯小白篇
作为学生党,这是第一次自己写博客。在写这篇博客前,我找了很多教程,摸索了很长时间才学会用这东西写博客。如果有不是很完美的地方,还请大家见谅,以后会越来越好滴! 第一篇博客,是想分享自己在申请腾讯云+MobaXterm连接服务器+Anaconda环境配置时的方法以及遇到的问题,希望可以帮助到大家。1、腾讯云申请1.1 腾讯云服务器申请腾讯云官网:官网地址学生云服务器申请:网址1.2...
2020-01-07 22:01:47 1864 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人