Programming
nana-li
越努力,越幸运!
展开
-
Python:(Pipeline用法)ValueError: Invalid parameter count_vec_binary for estimator Pipeline. Check.....
在敲《Python机器学习及实践》代码的时候,遇到一个关于pipeline的error。关于Pipeline的代码如下:# 使用Pipeline搭建使用朴素贝叶斯模型的分类器,使用CountVectorizer对文本特征进行抽取pip_count = Pipeline([ ('count_vect', CountVectorizer(analyzer='word'))原创 2017-05-30 21:27:29 · 6649 阅读 · 2 评论 -
scrapy - Request 中的回调函数不执行
在 scrapy 中,scrapy.Request(url, headers=self.header, callback=self.parse_detail)12调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志offsite/filtered 会显示过滤的数目。这个问题如何解决呢,查看手册发现(https://doc转载 2018-02-05 14:49:08 · 2916 阅读 · 0 评论 -
Visual Studio Community 2017新建及运行C++程序步骤
写在前面貌似也经常用vs写代码,不过更经常的是使用codeblock,因为轻量级嘛,但是最近频繁发现codeblock有些bug监测不出来,所以准备放弃codeblock,转而使用vs,没装多久的2017版,新建过程又出现问题,记录一下,想给自己一个呵呵哒的表情(^_^,,没救了的我!!新建步骤1、菜单栏:文件 –> 新建 –>项目,如下图所示: 2、接着出现下图,先更改名称和项原创 2018-02-05 20:32:51 · 35336 阅读 · 2 评论 -
Git: 删除commit记录方法(删除push失败的记录)
一、问题描述push大文件失败,在将大文件删除之后,其余小文件仍然受到之前大文件push失败的影响,无法正常push。二、解决方案需要将之前含有大文件的commit记录删除(全部删除)三、详细过程1、将git切换到之前提交的git项目所在目录 2、使用git log命令查看commit的历史记录及其对应的commit_id,查看结果如图: 3、复制commit_id,使...原创 2018-03-08 18:25:17 · 49594 阅读 · 11 评论 -
Python3:语言探测工具langdetect和langid
一、写在前面本篇博客主要介绍两款语言探测工具langdetect和langid,用于区分文本到底是什么语言,也是网上找到的一些资料,除了这两款之后,看到网上有的说使用NGram来解决这个问题也比较好。二、运行环境python3.6(anaconda)三、langdetect网址:https://code.google.com/archive/p/language-detecti...原创 2018-03-22 13:51:45 · 21016 阅读 · 7 评论 -
MySQLdb在Windows、Ubuntu和CentOS中安装方法(Python3.6)
说明MySQLdb在Python3中对应的安装应该是mysqlclient,其在windows、Ubuntu和CentOS上的安装方法都不一样,具体请看下文。一、Win中安装方法在命令行中输入一下命令(前提是支持pip指令):pip3 install mysqlclient (若是python2,请使用pip)二、Ubuntu中安装方法在命令行中输入一下命令:ap...原创 2018-04-04 20:09:37 · 1202 阅读 · 0 评论 -
Python: read(), readline()和readlines()使用方法及性能比较
一、使用方法# python3# -*- coding: utf-8 -*-# @Time : 2018/4/27 13:48import datetime# 下面是read()方法的使用,“r”表示readwith open('testRead.txt', 'r', encoding='UTF-8') as f1: results = f1.read() ...原创 2018-04-27 22:32:09 · 72399 阅读 · 2 评论 -
Python3: fp-growth频繁项集求解算法代码(提供py文件,可直接调用)
一、写在前面fp-growth算法是一个生成频繁项集的算法,其主要利用了FP树的数据结构,整个生成过程只需要遍历数据集2次。本fp-growth代码是基于开源代码fp-growth的实现(github代码:https://github.com/enaeseth/python-fp-growth),但是Eric的代码只支持python2.x,由于python3的变动,代码无法提供支持。本文也...原创 2018-05-13 16:59:00 · 11537 阅读 · 25 评论 -
.pgm图片简介以及Python读取.pgm图片的方法
一、什么是.pgm图片?.pgm文件由于模式的不同其数据存储方式也有所不同,下面介绍P2和P5模式的.pgm文件的格式。1、P2模式的.pgm文件P2模式的.pgm文件存储如下图所示: 其内容释义如下: ①第一行内容“P2”表示.pgm文件的模式。 ②第二行“128, 120”表示图片的宽度、图片的高度。 ③第三行“156”表示图片数据的最大值。 ④第三...原创 2018-07-03 21:55:21 · 32384 阅读 · 1 评论 -
Eclipse中java文件生成jar文件的方法
在eclipse中将编写的java文件生成jar文件,这样可以给别人或者在其他的地方都可以引用java文件中的函数,比较方便,本篇博文讲的就是在Eclipse中如何将java文件生成jar文件。一、首先要有java文件,这里是一个比较简单的例子,功能就是求n的平方值,输入一个字符串,将字符串转化为double型的数字,求出平方值,并以字符串的格式输出。SqrtCalc.java文件的代码如下:pac原创 2016-02-25 19:23:02 · 6354 阅读 · 0 评论 -
JAVA 各种数值类型最大值和最小值 Int, short, char, long, float,&nbs
代码片段: byte bmax, bmin; short shmax, shmin; char cmax, cmin; int imax, imin; long lmax,lmin; float fmax,fmin; double dmax,dmin;fmax = Float.MAX_VALUE; fmin = Float.MIN_VALUE; dmax = Double.MAX_转载 2016-02-16 14:12:24 · 2742 阅读 · 0 评论 -
Python:UnboundLocalError: local variable 'num' referenced before assignment
源代码num = 1def test(): num += 1 return numprint(test())错误详情可能原因python中出现了没有声明的变量 , py是通过如下简单的规则找出变量的范围 :如果函数内部有对变量的赋值 ,则该变量被认为是本地的,此时可以正常修改。但是若变量不定义在函数内部,且没有进行变量范围的声明(去调用外部变原创 2018-02-05 14:17:53 · 9073 阅读 · 0 评论 -
Python: sklearn库中数据预处理函数fit_transform()和transform()的区别
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下:# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标...原创 2017-05-19 09:48:40 · 106544 阅读 · 38 评论 -
python:并行化网格搜索中ImportError: [joblib] Attempting to do parallel computing without protecting...
在敲《Python机器学习及实践》上code的时候,在超参数搜索之并行搜索代码执行的时候,出现了错误。下面是完整的代码:# 从sklearn.datasets中导入20类新闻文本抓取器from sklearn.datasets import fetch_20newsgroupsimport numpy as np# 使用新闻抓取器从互联网上下载所有数据,并且存储在变量new原创 2017-05-20 17:28:10 · 2181 阅读 · 0 评论 -
Windows下安装python版的XGBoost教程(基于Anaconda)
XGBoost是近年来很受追捧的机器学习算法,由华盛顿大学的陈天奇提出,在国内外的很多大赛中取得很不错的名次,要具体了解该模型,可以移步GitHub,本文介绍其在Widows系统下基于Git的python版本的安装方法。 需要用到三个软件:python软件(本文基于Anaconda,因为自带很多库,比较方便)Git for WindowsMINGW 假设转载 2017-05-20 19:27:42 · 1355 阅读 · 0 评论 -
Windows下安装python版的Word2Vec工具包gensim教程(基于Anaconda)
写在前面:本机已安装Anaconda。安装步骤:1、Win+R打开命令行窗口2、使用cd命令将当前目录切换到Anaconda3、输入下列命令:pip install gensim命令运行之后出现安装成功的界面如图:4、在Pycharm中验证是否成功安装原创 2017-05-22 09:02:46 · 8242 阅读 · 3 评论 -
Python:调用NLTK报错LookupError: Recource 'tokenizers/punkt/english.pickle' not found(基于Anaconda)
在敲《Python机器学习及实践》上自然语言处理包(NLTK)上code的时候,导入nltk之后,运行出现LookupError: Recource 'tokenizers/punkt/english.pickle' not found的错误信息。(注:本错误基于Anaconda)写在前面:添加nltk.download('all')之后,下载的文件会在C盘中,大小大概是3.2G,原创 2017-05-21 20:16:41 · 19677 阅读 · 7 评论 -
Hadoop中自定义Partitioner,但是不同的key仍然在一个输出文件中
问题描述:在自定义Partitioner的时候,想要实现一个简单的功能:将对应的key为“short”、“right”和“long”的分别存储在3个文件中。因为默认是存储在一个文件中,所以需要自定义Partitioner。在实现功能的时候,想要通过判断key的值来决定result,代码如下: public int getPartition(Text key, Text va...原创 2017-07-19 09:02:06 · 1089 阅读 · 2 评论 -
Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)
写在前面本篇博客讲的是已经在Ubuntu配置好环境,并且scala功能可以正常使用的情况下,在windows下使用eclipse开发scala程序的配置。 Ubuntu下各软件的版本: Hadoop集群: hadoop-2.7.3 Hive版本: hive-2.1.1 Spark版本: spark-2.1.0-hadoop2.7 Scala版本: scala-2.12.2 关于集群的配置原创 2017-07-22 20:45:05 · 2397 阅读 · 0 评论 -
MultipleOutputs实战:结果输出到多个文件夹或者文件中
转载链接: http://blog.csdn.net/garychenqin/article/details/48339327(在原文基础上增加了代码分析、执行和结果)1、原理技术 输出到多个文件或多个文件夹,驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码:private MultipleOutputs mos;public void set转载 2017-07-19 14:31:15 · 386 阅读 · 2 评论 -
MultipleOutputs实战:结果输出到多个文件夹或者文件中
转载链接: http://blog.csdn.NET/garychenqin/article/details/48339327(在原文基础上增加了代码分析、执行和结果)1、原理技术输出到多个文件或多个文件夹,驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码:private MultipleOutputs mos; public void setup(转载 2017-07-19 14:41:53 · 3348 阅读 · 0 评论 -
Hadoop开发入门踩过的坑(持续更新)
1、将文件从本地上传到HDFS中报错错误描述:将本地文件使用代码上传至HDFS中出现错误提示:“Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.163.131:9000/local, expected: file:///”,如下图:源代码:impo原创 2017-07-11 16:33:15 · 1485 阅读 · 0 评论 -
python问题:ValueError: operands could not be broadcast together with shapes (100,3) (3,1)
原文链接:http://www.mamicode.com/info-detail-1072145.html背景:dataMatrix是(100,3)的列表,labelMat是(1,100)的列表,weights是(3,1)的数组,属性如下代码所示:>>> import types>>> type(dataMatrix)>>> type(labelMat)>>>转载 2017-10-11 20:14:04 · 66564 阅读 · 0 评论 -
eclipse Maven配置与实例
注:本文来自几篇博客的整合,是我结合自己使用过程中出现的问题重新整理了一下。参考博客(图片均来自下面博客):eclipse Maven配置eclipse修改maven的本地仓库位置Eclipse使用Maven时出现:Index downloads are disabled, search results may be incomplete.问题解决eclipse m转载 2017-10-14 22:10:56 · 1100 阅读 · 0 评论 -
代码覆盖度工具OpenCppCoverage(cpp)、EclEmma(java)、Coverage(python)使用
一、OpenCppCoverage(cpp)OpenCppCoverage是一个运行在windows上的程序,其不是在编译时进行插桩,而是在运行时,因此保证了代码和测试的一致性。 参考文档:https://github.com/OpenCppCoverage/OpenCppCoverage1、命令行方式(1)下载和安装下载地址:https://github.com/OpenCppCoverage/原创 2017-09-24 09:34:37 · 9482 阅读 · 5 评论