自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于Python的情感分析案例——知网情感词典

近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。1、情感分析含义情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌

2020-05-11 11:13:37 38216 176

原创 常用pip指令笔记汇总

常用pip指令笔记:1、更改系统下载的镜像源网站1)在电脑windows-用户文件夹下创建文件夹,命名任意;2)然后创建txt文件,写入以下代码,并将文件名修改为pip.ini(后缀改为ini)[global]index-url=https://pypi.tuna.tsinghua.edu.cn/simpletimeout = 6000 [install]trusted-host=pypi.tuna.tsinghua.edu.cn disable-pip-version

2021-01-05 16:30:21 441

原创 数据分析笔记:广州市财政收入挖掘预测案例

1、背景在我国现行的分税制财政管理体制下,地方财政收入不仅是国家财政收入的重要组成部分,而且具有其相对独立的构成内容。地方财政收入是区域国民经济的综合反映,也是市场经济国家的政府进行宏观调控的基础。科学、合理地预测地方财政收人,对于克服年度地方预算收支规模确定的随意性和盲目性,正确处理地方财政与经济的相互关系具有十分重要的意义。广州市作为广东省的省会,改革开放的前沿城市,交通便利,拥有中国大陆三大国际航空枢纽机场之一的广州白云国际机场和中国第三大港口、港口货物吞吐量居世界港口第五位的广州港。广州号称

2020-07-14 16:50:26 3065 4

原创 爬虫学习笔记:天猫(淘宝)评论数据爬虫

1、杂语近期课程需要爬取淘宝、天猫商品评论信息,进行数据挖掘分析和情感分析。在网上查找相关资料,翻阅一些博客和csdn文章,对淘宝天猫商品评论爬虫有了一些了解,并且成功爬取到需要的数据。因此,在此对这几天的学习做个总结,也给有同样需求的朋友一点参考。2、目的和方法2.1 目的本文目的很明确,爬取天猫(淘宝)中某个商品的评论信息,信息包括商品的型号、用户评论(主要分析这两个信息)。商品链接地址:https://detail.tmall.com/item.htm?spm=a230r.1.14

2020-05-19 15:30:23 6978 9

原创 自然语言处理:pyltp安装教程与问题汇总

1、pyltp简介pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。2、pyltp安装方法安装环境:windows10,python3.62.1.安装pyltp库安装方法一:使用pip命令安装pip install pyltp注:此种方法大概率会失败,会出现...

2020-04-27 12:16:41 1673 1

原创 解决编码问题:AttributeError: 'str' object has no attribute 'decode'

1. 问题发现:出现:读取文件,对其进行解码,出现以上错误,AttributeError: 'str' object has no attribute 'decode'解释:属性错误,str对象不包含‘decode’属性。2.原因解释:出现问题原因:str与bytes表示的是两种数据类型,str为字符串型,bytes为字节型。对str编码encode得到bytes,对bytes解...

2020-04-27 08:30:47 38506 1

原创 问题解决:ImportError: cannot import name '_ccallback_c'

问题:出现以下错误Traceback (most recent call last): File "C:\Users\joesh\Desktop\Python\Machine Learning\1st tutorial.py", line 4, in <module> from sklearn import preprocessing, cross_validatio...

2020-04-12 09:50:07 12546

原创 stanfordcorenlp安装教程&问题汇总&简单使用

stanfordcorenlp安装教程&简单使用教程&问题汇总stanfordcorenlp安装教程&问题汇总(importerror-no-module-named-psutil、OSError: stanford-chinese-corenlp-yyyy-MM-dd-models.jar not exists.)&简单使用教程编译环境:python 3....

2020-04-11 20:37:51 8883 18

原创 爬虫学习笔记:爬取古诗文网

1、目标网站目标网站:https://so.gushiwen.org/shiwen/default.aspx?2、爬虫目的爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中。3、爬虫程序# -*- coding:utf-8 -*-#爬取古诗网站import requestsimport re#下载数据def wr...

2020-04-09 19:23:29 1586

原创 爬虫学习笔记:爬取笔趣阁剑来小说

1、目的爬取笔趣阁网站的剑来小说正文内容,并保存到本地中。2、实现方案首先,请求目标网站的网页数据,通过分析找出章节地址的特点,并通过xpath获取到章节链接;其次,请求每一章节的内容,通过数据清洗去除脏数据,得到剑来文章正文;最后,保存数据到本地。3、程序设计3.1 请求数据模块请求模块,负责请求网站数据,主要使用req...

2020-04-04 13:02:20 1468

原创 爬虫学习笔记:爬取笔趣阁小说

# -*- coding: utf-8 -*-import requestsfrom lxml import etreeclass BookSpider(object): def __init__(self): self.url = "http://www.jianlaixiaoshuo.com/" self.base_url = "http://...

2020-04-04 11:54:34 498

原创 爬虫学习笔记:爬取任意百度贴吧帖子中的图片和视频 2

续前篇:https://blog.csdn.net/maxMikexu/article/details/1052915761、代码# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport osfrom urllib import parse#爬虫class BtcSpider(object): ...

2020-04-03 20:28:45 280

原创 爬虫学习笔记:爬取百度贴吧(美女吧)图片

1、摘要目的:爬虫项目学习,使用requests方法,爬取百度贴吧美女吧每个帖子的图片,并保存到本地中。方法:首先,通过requests请求美女吧网页内容;其次,通过xpath方法清洗数据,获取到每个帖子的url地址;再次,请求每个帖子的地址,并从每个帖子地址中爬取图片链接;最后,请求图片数据,以二进制格式保存数据到本地。2、网页分析如下图所示,为本次爬取的目标网站,百度美女吧,需...

2020-04-03 13:47:05 875 1

原创 中文分词工具安装教程及分词和词性标注应用(jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir)

2.1 jieba2.1.1 jieba简介Jieba中文含义结巴,jieba库是目前做的最好的python分词组件。首先它的安装十分便捷,只需要使用pip安装;其次,它不需要另外下载其它的数据包,在这一点上它比其余五款分词工具都要便捷。另外,jieba库支持的文本编码方式为utf-8。Jieba库包含许多功能,如分词、词性标注、自定义词典、关键词提取。基于jieba的关键词提取有两种...

2020-04-01 19:35:51 3503

原创 pyhanlp安装教程

pyhanlp安装教程1、hanlp简介HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。Hanlp具有以下功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁2、hanlp安装第一步:h...

2020-04-01 11:30:44 1443

原创 自然语言处理——中文文本预处理

自然语言处理——中文文本预处理近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。1、中文语料的特点第一点:中文语料中词与词之间是紧密相连的,这一点不同与英文或者其它语种的语料,因此在分词的时候不能像英文使用空格分词,可以jieb...

2020-03-16 21:27:26 11636 9

原创 中文停用词表——哈工大停用词表

》),)÷(1-”,)、=(:→℃&*一一’. 『.一./-- 』=″【[*]}>[⑤]][①D]c]ng昉*//[][②e][②g]={},也 ‘A[①⑥][②B] [①a][④a][①③][③h]③]1. -- [②b]’‘ ××× [①⑧]0:2 =[[⑤b][②c] [④b]...

2020-03-16 11:04:47 6127

原创 从任意页添加页眉—(超简教程)

1.问题描述word中添加页眉一直是让人头疼的问题,如何从任意指定页面添加页眉更是烦人,今天我就为大家介绍一种超级简单的页面添加方法。假设:我需要在第10页添加页眉。2.操作步骤1》在第九页页尾添加分节符,添加方法:布局-分隔符-分节符-下一页;2》点击第十页的页面,输入找到页面页脚设计工具,选择链接到前一节3》最后再编辑第十页的页面内容,点击退出页眉编辑,即大功告成。注意事项:...

2020-03-06 15:29:53 1206

转载 知名中文语料库

知名中文语料库:中央研究院近代汉语标记语料 http://www.sinica.edu.tw/Early_Mandarin/ (台湾的繁体,在NLTK中有)2.中央研究院汉籍电子文献 http://www.sinica.edu.tw/ftms-bin/ftmsw3国家现代汉语语料库 http://124.207.106.21:8080/ 这个没搜索到4.国家语委现代汉语语料库 ht...

2020-03-04 20:25:04 1423

原创 python安装pandas包过程中遇到的问题总结

python安装pandas包过程中遇到的问题总结安装pandas包时,在网上看的教程有手动安装和自动安装两个方法:手动安装是手动安装pandas包,在安装pandas第三方模块时,需要依赖好多环境配置,为了省去这些配置,可以使用一下方法安装这个模块访问一下这个地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/在这个模块中下载和自己python版本号对应...

2019-10-11 10:30:24 6094 3

基于python的情感分析模型

该资料适合学生党学习参考,主要使用知网的情感词典进行情感分析,分析准确率尚可。

2021-01-05

基于BosonNLP情感词典的情感分析模型

1、简单易上手; 2、结果清晰

2022-03-19

python基于知网情感词典的情感分析模型.zip

本资源为基于知网情感词典设计的情感分析程序,程序中包含设计的代码文件,情感词典文件,程度词表文件,以及微博语料和情感分析结果文件。

2020-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除