自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

miner_zhu的博客

学习学习再学习!

  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 NLP之文本相似度

相似度相似度度量(从字面上和语义上两方面来度量):计算个体间相似程度(得到一个分数,通过分数来度量相似度,范围[0,1])    -文本角度(TF-IDF、LCS):这件衣服真好看,这件衣服真难看    -语义角度(协同过滤):真好玩,真有趣    -文本+语义角度(word2vec)余弦相似度先介绍文本相似中最常用最简单的方法:余弦相似度。    – 一个向量空间中两个向...

2018-08-13 11:12:22 5875

原创 python3引用docx包报错ImportError: No module named 'exceptions'

使用环境:ubuntu anaconda python3.6原因:docx包中引用了该模块,而python3.x版本移除了exceptions模块。即docx包尚未适配python3。解决方法:1.命令行 卸载docx,pip uninstall docx2.下载 python_docx-0.8.7-py2.py3-none-any.whl 网址: http://www.l...

2018-08-24 13:47:16 5370

原创 可视化之seaborn简单实现

 Matplotlib是Python主要的绘图库。但是,不建议直接使用它。虽然Matplotlib很强大,但它因此也很复杂,你的图经过大量的调整才能变得精致。因此,作为替代,推荐一开始使用Seaborn。Seaborn本质上使用Matplotlib作为核心库(就像Pandas对NumPy一样)。seaborn有以下几个优点:默认情况下就能创建赏心悦目的图表。 创建具有统计意义的图。 能理解...

2018-08-24 12:11:19 529

转载 可视化之pyecharts详细配置绘制图表

Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。 pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 针对Python 的接口。安装pip install pyecharts图形初始化图表类初始化所接受的参数(所有类型的图表都一样)。title -> str 主标题文本,支持 \n 换行,默认为 ""...

2018-08-22 18:38:38 25391

转载 MongoDB基本操作

MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。在这一节中,我们就来看看Python 3下MongoDB的存储操作。1. 准备工作在开始之前,请确保已经安装好了MongoDB并启动了其服务,并且安装好了Python的PyMongo库。2. 连接MongoDB...

2018-08-21 15:15:59 163

转载 爬虫urilib库之parse

前面说过,urllib库里还提供了parse这个模块,它定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理:file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、teln...

2018-08-20 00:03:30 375

转载 爬虫urilib库之request

官方文档链接:https://docs.python.org/3/library/urllib.html首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。request:它是最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现请求过程了。 error:异常处理模块,如果...

2018-08-19 22:30:03 450 1

原创 ubuntu突然无法连接网络解决

背景:ubuntu16.04   之前正常使用,突然某天提示连接中断,之后一直无法连接网络试了无数教程无果,最后猜测可能还是网络服务的问题。解决方法:1.打开电脑的服务界面在键盘上同时点击“win+R”键弹出运行界面,输入services.msc,按确定.2.手动“启动”以VMware开头的几个服务这样就解决了Ubuntu的网络离线问题,供大家参考 ...

2018-08-19 20:41:47 3479 1

转载 爬虫基础之代理的基本原理

1. 基本原理代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理...

2018-08-17 17:01:09 2162

转载 爬虫基础之会话和Cookies

在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关知识,本节就来揭开它们的神秘面纱。1. 静态网页和动态网页在开始之前,我们需要先了解一下静态网页和动态网页的概念...

2018-08-17 16:55:20 1513 1

转载 爬虫基础之基本原理

为什么叫爬虫:我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。1. 爬虫概述简单...

2018-08-17 16:30:30 659

转载 爬虫基础之网页基础

用浏览器访问网站时,页面各不相同,本次,我们就来了解一下网页的基本组成、结构和节点等内容。1.网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤,三者结合起来才能形成一个完善的网页。下面我们分别来介绍一下这三部分的功能。(1) HTMLHTML是用来描述网页的一种语...

2018-08-17 16:18:19 1943

翻译 爬虫基础之HTTP基本原理

1.URI和URLURI的全称为Uniform Resource Identifier,即统一资源标志符。URL的全称为Universal Resource Locator,即统一资源定位符。URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫作URN,它的全称为Universal Resource Na...

2018-08-17 15:27:53 1287

原创 Linux中 anaconda 启动其终端命令行

anaconda-navigator $ source ~/anaconda3/bin/activate root$ anaconda-navigator 

2018-08-15 13:56:06 39832 3

转载 推荐算法介绍

推荐算法大致可以分为以下几类[: 基于流行度的算法 协同过滤算法 基于内容的算法 基于模型的算法 混合算法 2.1 基于流行度的算法  基于流行度的算法非常简单粗暴,类似于各大新闻、微博热榜等,根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户。这种算法的优点是简单,适用于刚注册的新用户。缺点也很明显,它无法针对用户提供个性...

2018-08-14 16:37:27 442

转载 一个完整推荐系统的设计实现

工业界完整推荐系统的设计。结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)完整的推荐系统肯定不会只用一种推荐算法在学术界, 一般说到推荐引擎, 我们都是围绕着某一种单独的算法的效果优化进行的, 例如按内容推荐, 协同过滤(包括item-bas...

2018-08-14 15:34:55 20668

转载 Anaconda 安装第三方包(以jieba工具为例)

  1.直接在cmd窗口运行pip install jieba2.使用conda自带的安装工具conda install jieba3.有一些模块是无法使用以上两种方式安装上,这时就需要首先寻找模块,再安装anaconda search -t conda jieba这时会出现该模块的很多版本的信息如下图,找到合适的版本根据版本的信息,输入anac...

2018-08-10 18:03:44 12389 1

转载 Linux安装Anaconda

Linux安装Anaconda发布时间:2016-10-17 11:58:03来源:topspeedsnail.com作者:斗大的熊猫Anaconda是用于科学计算的平台,它集成了很多关于Python科学计算的第三方库,可运行在Linux、Windows 和 macOS下。它的功能包括:包管理、环境管理、700+软件包。Anaconda主要由Miniconda和Conda两个组件组成。...

2018-08-10 10:54:06 342

转载 linux没有权限操作文件

没有权限的话最好是通过命令来解决,linux下有超级用户(root)和普通用户,普通用户不能直接操作没有权限的目录。对于你的问题以下分两种解决办法介绍:打开终端:alt+f2,输入gnome-terminal,回车,在弹出的界面操作:1.输入sudo nautilus回车,输入你的用户的密码,这样就打开了一个超级用户权限的资源管理器,然后你直接创建你的目录就行了。2.用命令创建你的目录,先c...

2018-08-09 15:00:39 24364

转载 linux死机不强制关机解决方法

可尝试的解决方法1. 进入TTY终端 Ctrl+Alt+F1进入TTY1终端字符界面, 输入用户名和密码以登录 输入top命令, 找到可能造成假死的进程, 用kill命令结束掉进程。然后Ctrl+Alt+F7回到桌面 2. 直接注销用户Ctrl+Alt+F1进入TTY1终端字符界面, 输入用户名和密码以登录。然后执行以下的任意一个命令注销桌面重新登录。sudo...

2018-08-08 18:06:03 7072

转载 linux下移动一个文件

用mv命令1.作用mv命令来为文件或目录改名或将文件由一个目录移入另一个目录中。该命令等同于DOS系统下的ren和move命令的组合。它的使用权限是所有用户。2.格式mv [options] 源文件或目录 目标文件或目录3.[options]主要参数-i:交互方式操作。如果mv操作将导致对已存在的目标文件的覆盖,此时系统询问是否重写,要求用户回答”y”或”n”,这样可以避免误覆盖文件...

2018-08-03 14:26:22 9249

转载 Linux下文件重命名、创建、删除、修改及保存文件

一、重命名(更名)linux 给文件改名的命令是mv命令mv命令来为文件或目录改名或将文件由一个目录移入另一个目录中。该命令等同于DOS系统下的ren和move命令的组合。它的使用权限是所有用户。格式mv [options] 源文件或目录 目标文件或目录。主要参数[options]-i:交互方式操作。如果mv操作将导致对已存在的目标文件的覆盖,此时系统询问是否重写,要求用户回答”...

2018-08-03 14:16:41 1727

翻译 NLP之中文命名实体识别(Named EntitiesRecognition--NER)

一、什么是命名实体识别命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的工作。命名实体识别本质上是一个模式识别任务, 即给定一个句子, 识别句子中实体的边界和实体的类型。是自然语言处理任务中一项重要且基础性的工作。二、实体关系抽取实体和实体之间存在着语义关系, 当两个实体出现在同一个句子里时, 上下文环境就决定了两个实体间的语义关系。...

2018-08-02 22:11:12 8483

翻译 NLP之jieba中文分词官方文档

 jieba“结巴”中文分词:做最好的 Python 中文分词组件特点支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议在线演示...

2018-08-01 14:52:36 1313

统计自然语言处理(第二版)宗成庆著 带书签

统计自然语言处理 第二版 宗成庆 pdf是一本经过第二次更新的统计自然语言方面的教材。自然语言作为人类思想情感最基本,最直接,最方便的表达工具,无时无刻不充斥在人类社会的各个角落。小编推荐的这本统计自然语言处理全面介绍了统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

2018-09-17

django 1.11版官方文档(英文)

Django是一个开放源代码的Web应用框架,由Python写成。采用了MVC的框架模式,即模型M,视图V和控制器C。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的,即是CMS(内容管理系统)软件

2018-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除