2017年11月_CopperDong

12月 11月 10月 09月 08月

转载 ERROR: Unable to globalize '/usr/local/NONE/etc/php-fpm.d/*.conf' 问题的解决

今天继续作大死，趟php7的配置的坑。照例，安装了昨天的各种扩展之后，解压php7的压缩文件到 /usr/local/。然后开始配置config的扩展： ./configure --prefix=/usr/local/php7 \ --with-gd \ --with-freetype-dir \ --enable-gd-native-ttf \ --ena

2017-11-30 21:36:40 3643 2

转载 php-fpm安装、配置与优化

转载自：https://www.zybuluo.com/phper/note/890811、php中fastcgi和php-fpm是什么东西最近在研究和学习php的性能方面的知识，看到了factcgi以及php-fpm，发现我对他们是少之又少的理解，可以说几乎是一无所知，想想还是蛮可怕的。决定仔细的学习一下关于这方面的知识。参考和学习了以下文章： 1.

2017-11-30 20:44:39 18614 2

转载一致性检验 -- Kappa 系数

一、Kappa 检验方法在做数据分析时，我们经常会面临一致性检验问题，即判断不同的模型或者分析方法在预测结果上是否具有一致性、模型的结果与实际结果是否具有一致性等。另外，一致性检验在临床实验中也有着广泛的应用。对于两个或多个医务工作者对同一病人给出的诊断结论进行一致性检验，英文叫 interrater reliability; 对同一医务工作者多次诊断结论的一致性检验，英文叫 intrar

2017-11-30 20:32:21 35911

转载 Linux 安装Nginx详细图解教程

系统：Centos6.6 64位Nginx: http://nginx.org/en/download.html 目前最新版本1.9.4 我下载1.8.0下载模块依赖性Nginx需要依赖下面3个包1.gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ )2.rewrite 模块需要 pcre 库 ( 下载: http://ww

2017-11-30 18:41:44 251

原创 Python自然语言处理 8 分析句子结构

前面的章节重点关注词：如何识别它们，分析它们的结构，给它们分配词汇类别，以及获得它们的含义。目的是要回答下列问题：（１）如何使用形式化语法来描述无限的句子集合的结构？（２）如何使用句法树来表示句子结构？（３）解析器如何分析句子并自动构建语法树？一　一些语法困境＃语言数据和无限可能性文法的目的是给出一个明确的语言描述。而我们思考文法的方式与我们认为什么是一种语言紧密联系在

2017-11-29 15:58:38 4851

转载情感分析利器——Doc2vec

情感分析是自然语言处理（NLP）中的常见的方法应用，是文本分析的一种。所谓文本分析指的是从文字来源中推导出知识和洞见的过程。而情感分析则进一步从文字中自动识别出人们对特定主题的主观看法、情绪以及态度等等资讯。尽管情绪在很大程度上是主观的，但是情感量化分析已经有很多有用的实践，比如企业分析消费者对产品的反馈信息，或者检测在线评论中的差评信息。比较简单的情感分析方法利用词语

2017-11-28 11:30:49 3976 3

原创 Python自然语言处理 7 从文本提取信息

回答下列问题：　　（１）如何能构建一个系统，以至从非结构化文本中提取结构化数据？　　（２）有哪些稳健的方法识别一个文本描述的实体和关系？　　（３）哪些语料库适合这项工作，如何使用它们来训练和评估模型？一　信息提取信息有很多种”形状“和”大小“，一个重要的形式是结构化数据：实体和关系的规范和可预测的组织。例如：我们可能对公司和地点之间的关系，可用关系数据库存储。但如果我们尝试

2017-11-28 11:26:19 13391 1

原创 Python自然语言处理 6 学习分类文本

回答下列问题：（１）怎样才能识别出语言数据中明显用于分类的特征？（２）怎样才能构建用于自动执行语言处理任务的语言模型？（３）从这些模型中我们可以学到哪些关于语言的知识？决策树，朴素贝叶斯分类器和最大熵（shang）分类一　监督式分类＃性别鉴定创建分类def gender_features(word): return {'last_letter': word[

2017-11-24 17:48:18 2255 1

原创 Python自然语言处理 5 分类和标注词汇

目标：（１）什么是词汇分类，在自然语言处理中它们如何使用？（２）对于存储词汇和它们的分类来说什么是好的Python数据结构？（３）如何自动标注文本中每个词汇的词类？基本技术，包括序列标注，N-gram模型，回退和评估一　使用词性标注器text = nltk.word_tokenize("and now for something completely different")

2017-11-23 10:13:52 1936

原创 Python自然语言处理 4 编写结构化程序

解决以下问题：（１）怎么能写出结构良好，可读的程序，使你和其他人能够很容易地冲用它（２）基本结构块，如循环，函数及赋值，是如何执行的？（３）Python编程的陷进有哪些，你将如何避免它们？一，回到基础＃赋值链表的赋值，实际上是一个对象的引用，要了解这里发生了什么，需要知道链表是如何存储在计算机内存的foo = ['Monty', 'Python']bar = foo

2017-11-22 17:01:01 712

转载 STM32.SPI（25Q16）

1.首先认识下W25Q16DVSIG，SOP8SPI FLASH16MBIT 2MB（4096个字节）（里面可以放字库，图片，也可以程序掉电不丢失数据放里面）例程讲解：①1.用到SPI库；conf.h里打开头文件2.2M串行FLASH W25Q16初始化SPI_FLASH_Init();RCC_APB2PeriphClockC

2017-11-21 21:17:42 5033

转载 verilog矩阵乘法

1. 串行乘法器两个N位二进制数x、y的乘积用简单的方法计算就是利用移位操作来实现。module multi_CX(clk, x, y, result); input clk; input [7:0] x, y; output [15:0] result; reg [15:0] result; parameter s0 = 0

2017-11-21 20:28:29 16038 4

PULPino是一个开源的微型控制系统,基于一个32位RISC-V核心，由瑞士苏黎世联邦理工学院与意大利博洛尼亚大学联合开发。核心IPC接近1,完全支持基整数指令集(RV32I),压缩指令(RV32C)和部分支持乘法指令集扩展(RV32M)。在https://github.com/pulp-platform上有全部源代码，包括：处理器、外设、总线、编译器等，下面是我在zedboard上下载、测试P

2017-11-21 16:09:41 2002

转载 zedboard的demo评测

转载来自：http://blog.csdn.net/xiaoyangger/article/details/7970142Zedboard是第一款面向开源社区的Zynq-7000系列开发板，而Zynq-7000系列FPGA，也称为完全可编程（All Programable）SoC，是Xilinx一个有重大意义的产品系列。在FPGA里集成高性能的处理器内核一直是众多FPGA厂商以

2017-11-21 16:05:57 655

转载基于RISC-V架构的开源处理器及SoC研究综述（三）

3 基于RISC-V的开源SoC研究现状3.1 Rocket-Chip UCB为了方便用户学习，同时也为了便于重复使用已设计好的硬件模块，在GitHub上建立了Rocket-Chip Generator的项目，其中包括了Chisel、GCC、Rocket处理器，以及围绕Rocket的一系列总线单元、外设、缓存等，并且采用了参数化的配置方法，从而可以方便的创建不同性能要求的基于

2017-11-21 15:57:44 2741

转载基于RISC-V架构的开源处理器及SoC研究综述（二）

2 基于RISC-V的开源处理器研究现状目前基于RISC-V架构的开源处理器有很多，既有标量处理器Rocket，也有超标量处理器BOOM，还有面向嵌入式领域的Z-scale、PicoRV32等。2.1 标量处理器——Rocket Rocket是UCB设计的一款64位、5级流水线、单发射顺序执行处理器，主要特点有：支持MMU，支持分页虚拟内存，所以可以

2017-11-21 15:52:17 1378

转载基于RISC-V架构的开源处理器及SoC研究综述（一）

http://blog.csdn.net/leishangwen/article/details/55006662 RISC-V是加州大学伯克利分校（University of California at Berkeley，以下简称UCB）设计并发布的一种开源指令集架构，其目标是成为指令集架构领域的Linux，应用覆盖IoT（Internet of Things）设备、桌面计算机、高性能计算机

2017-11-21 15:46:03 723

转载 python 读取txt出现\xef\xbb\xbf…的问题

用python读取txt文件，文件的内容是一列数如下：188318861900190018971897189718971906191719101910123456789101112但是读取的时候第一个元素为‘\xef\xbb\xbf1883’，上网看了一些资料，原来在python的file对象的readline以及readlines程序中，针对一些UTF-8编码的

2017-11-19 15:46:39 1564

原创 Python自然语言处理 3 处理原始文本

本章的目的是要回答下列问题:(1) 怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?(2)如何把文档分割成单独的单词和标点符号,并进行文本语料上分析?(3)怎样编写程序产生格式化的输出,并把结果保存在文件中?为了解决这些问题,本章将介绍NLP的重要概念,包括分词和词干提取.在过程中,巩固Python知识并且学习关于字符串,文件和正则表达式的知识.网络上的文本都是HT

2017-11-19 15:03:47 1140

转载语音识别开源项目

语音识别项目：http://www.oschina.net/project/tag/203/tts-speech sf.net http://www.codesoso.net/Search?q=%D3%EF%D2%F4%CA%B6%B1%F0&l=chttp://search.codesoso.com/Search?q=%E8%AF%AD%E9%9F

2017-11-17 22:33:09 4120

转载语音识别关键技术公开，人机交互这么做就对了！

对于识别来说，首先要保障的是远场环境下的识别率，除了前面提到的麦克风阵列解决了前端声学的问题，还要有专门针对远场环境下，基于大量数据训练的声学模型，这样才能保证识别率满足交互需求。语音识别是目前应用最成熟的人机交互方式，从最初大家体验过的有屏手持设备这种近场的语音识别，如Siri以及各种语音助手，到现在，语音识别的应用已经完成了向智能硬件以及机器人上延伸，不过，新的人机交互

2017-11-17 22:18:59 5501

转载 Ubuntu常用软件合集

Ubuntu常用软件合集我用的使Ubuntu-Kylin14.04,原因呢主要是觉得使本土化的，自带了日历、输入法、优客助手等易于上手的应用。也省的每次安装完原生的系统再麻烦的安装,但是这些软件并不仅仅局限于ubuntu14.04美化篇刚装上ubuntu，看起来很朴素，而且用起来很多习惯发生了变化，也不怎么美观，但是ubuntu因为linux强大的软件集和扩展新，可以让ubun

2017-11-17 21:18:18 1842

原创 Python自然语言处理 2 获得文本语料和词汇资源

#古腾堡语料库----文学作品 Project Gutenbergimport nltknltk.corpus.gutenberg.fileids()emma = nltk.corpus.gutenberg.words('austen-emma.txt') #len(emma)192427文本的3个统计量:平均词长,平均句子长度和每个词出现

2017-11-17 17:17:15 1225

原创 Python自然语言处理 1 语言处理与Python

import nltknltk.download() #下载corpora 和 book#测试bookfrom nltk.book import * 有text1 ~ text9#搜索文本text1.concordance("monstrous")#查找与词有相似的上下文,如the ___ pictures 和 the ___ sizetext1

2017-11-17 15:23:36 633

转载 QA问答系统中的深度学习技术实现

原文应用场景智能问答机器人火得不行，开始研究深度学习在NLP领域的应用已经有一段时间，最近在用深度学习模型直接进行QA系统的问答匹配。主流的还是CNN和LSTM，在网上没有找到特别合适的可用的代码，自己先写了一个CNN的（theano），效果还行，跟论文中的结论是吻合的。目前已经应用到了我们的产品上。原理参看《Applying Deep Learning

2017-11-16 11:35:34 5900 3

转载如何利用深度学习技术训练聊天机器人语言模型？

原文导语：模型能聊的内容也取决于选取的语料。如果已经具备了原始聊天数据，可以用SQL通过关键字查询一些对话，也就是从大库里选取出一个小库来训练。雷锋网按：本文作者王海良，呤呤英语开发总监，北京JavaScript／Node.js开发者社区的运营者，曾就职IBM创新中心。本文为系列文章第三篇，由雷锋网(公众号：雷锋网)独家首发。前两篇文章作者分别介绍了聊天机器人目前的发展状况及基

2017-11-16 11:21:46 1187

转载机器学习保险行业问答开放数据集: 2. 使用案例

原文在上一篇文章中，介绍了数据集的设计，该语料可以用于研究和学习，从规模和质量上，是目前中文问答语料中，保险行业垂直领域最优秀的语料，关于该语料制作过程可以通过语料主页了解，本篇的主要内容是使用该语料实现一个简单的问答模型，并且给出准确度和损失函数作为数据集的Baseline。DeepQA-1为了展示如何使用该语料训练模型和评测算法，我做了一个示例项目 - Deep

2017-11-16 11:08:42 546

转载机器学习保险行业问答开放数据集: 1. 语料介绍

原文目前机器学习，尤其是因为深度学习的一波小高潮，大家对使用深度学习处理文本任务，兴趣浓厚，数据是特征提取的天花板，特征提取是深度学习的天花板。在缺少语料的情况下，评价算法和研究都很难着手，在调研了众多语料之后，深知高质量的开放语料十分稀少，比如百度开放的Web QA 1.0 语料，包含的问题也就是四万余条，而分成不同的垂直领域，就根本不能用于FAQ模型的训练，这就是我做了这个语料

2017-11-16 11:04:11 3186 1

转载两种开源聊天机器人的性能测试（一）——ChatterBot

因为最近在学习自然语言处理的相关知识，QQ小冰这个东西最近又很热，所以就试着玩了下两个开源聊天机器人，在这里分享一点小经验，希望对有共同兴趣的人能起到那么一点作用。我主要测试了两个聊天机器人，一个是ChatterBot，另外一个是基于tensorflow的chatbot。我们首先看一下ChatterBot。 ChatterBot是Python自带的基于机器学习

2017-11-16 10:59:53 2392

转载两种开源聊天机器人的性能测试（二）——基于tensorflow的chatbot

这次测试的操作系统依然是Ubuntu14.04(64位)。开源项目链接：https://github.com/dennybritz/chatbot-retrieval/ 它实现一个检索式的机器人。采用检索式架构，有预定好的语料答复库。检索式模型的输入是上下文潜在的答复。模型输出对这些答复的打分，选择最高分的答案作为回复。下面进入正题

2017-11-16 10:58:15 3534 2

转载 Kickstart/Anaconda实现自动化安装原理探究

内容概要： 1. 系统安装基本流程图示2. Anaconda简介3. Kickstart简介4. 引导并指定安装方式5. kickstart文件中的主要项目及参数介绍6. kickstart配置文件示例7. RedHat 安装光盘安装树介绍8. Anaconda/Kickstart系统安装过程简图9. 安装树中boot.img及stag

2017-11-16 10:52:15 811

转载 Ubuntu下基于conda的TFLearn的安装

TFLearn是在Tensorflow的基础上进行封装的一个包，能够能简便的搭建网络。conda是一个非常好用的包管理器，能够管理好多个包之间的依赖关系。因此，基于conda能够较方便的安装TFLearn。其安装步骤如下：（１）使用conda创建环境conda create -n tflearn python=3.5（２）进入环境source activate tflearn（３

2017-11-15 20:42:15 1270

转载 zedboard Linux JTAG驱动解决There is no current hw_target问题

zedboard Linux JTAG驱动解决There is no current hw_target问题由 FIND · 2017年4月10日 29 看过Introduction本文介绍了在Linux下安装zedboard驱动解决vivado无法通过jtag连接到板子上的问题。终于步入了helloworld阶段。之前折腾了下zedboard板

2017-11-14 12:05:32 2987

转载自己动手实现主题搜索引擎

1.前言：软件设计要写大作业了，好慌啊，写什么好呢，室友居然把Everything实验了，那我也写一个与搜索有关的玩玩吧。突然想到大一时候自学过利用whoosh和solr写过简单的搜索引擎，那么今天就自己动手试一试吧。2.简介本项目主要实现了一个主题搜索引擎。主题搜索引擎是针对某一个领域的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整

2017-11-14 10:27:51 1913

转载创建GitHub技术博客全攻略

说明: 首先,你需要注册一个 github 账号,最好取一个有意义的名字,比如姓名全拼,昵称全拼,如果被占用,可以加上有意义的数字.本文中假设用户名为 tiemaocsdn1. 注册账号:地址: https://github.com/输入账号、邮箱、密码,然后点击注册按钮.图1 第1步2. 初始设置注册完成后,选择Free免费账号完成设置。

2017-11-12 17:28:50 278

转载使用SSH反向隧道进行内网穿透

使用SSH反向隧道进行内网穿透这篇文章主要介绍了如何利用SSH 反向隧道穿透NAT，并演示了如何维持一条稳定的SSH 隧道。假设有机器A 和B，A 有公网IP，B 位于NAT 之后并无可用的端口转发，现在想由A 主动向B 发起SSH 连接。由于B 在NAT 后端，无可用公网IP + 端口这样一个组合，所以A 无法穿透NAT，这篇文章应对的就是这种情况。首先

2017-11-12 16:52:06 721

转载 wget 网页爬虫,网页抓取工具

前言如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢，常规的我们肯定是要去下载一个软件下来使用啦，可怜的这两个系统总是找不到相应的工具，这时wget出来帮助你啦!!!wget本身是拿来下载东西的，但远不止那么强大,是一把强大利器。使用指南快速上手(整个bootstrap网页全被你抓取下来了~_~)wget -c -r -npH -k http:/

2017-11-08 21:33:24 747

转载【汇总】语料库资源

感谢豆友prayever分享：Tmxmall是公开的专业平行双语语料库平台，可以查询和下载双语语料库。www.tmxmall.com国内可用免费语料库（凡没有标注不可用的链接均可用）(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在

2017-11-08 18:15:51 4548

转载自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑微软亚洲研究院黄昌宁张小凤摘要要：本文就半个世纪以来自然语言处理（NLP）研究领域中笔者所观察到的要点进行阐述，其中包括两个事实和三大重要成果。近年自然语言处理研究所揭示的两个事实为：（1）对于句法分析来说，基于单一标记的短语结构规则是不充分的；（2）短语结构规则在真实文本中的分布呈现严重扭曲。换言之，有限数目的短语结构规则不能覆

2017-11-08 17:15:19 1442

原创隐语义模型

自从Netflix Prize比赛举办以来，LFM(latent factor model)隐语义模型逐渐成为推荐系统领域耳熟能详的名词．其实该算法最早在文本挖掘领域被提出，用于找到文本的隐含语义．相关的名词有LSI, pLSA, LDA和Topic Model．本节将对隐含语义模型在Top-N推荐中的应用进行详细介绍，并通过实际的数据评测该模型．一，基础算法　　它的核心思想是通过隐含特征

2017-11-08 17:05:54 1625