2018年05月_小白的进阶

12月 11月 10月 09月 08月 06月 05月 04月 01月

转载 Python 中常见字符编码和解码方面的错误及其解决办法

Python 2.x中的字符编码，设计的的确不好，导致初学者，甚至是即使用Python很长时间的人，都会经常遇到字符编解码方面的错误。下面就把一些常见情，尽量的都整理出来，并给出相应的解决办法。看此文之前Python中字符编码所涉及的背后逻辑（从你输入字符，到终端显示字符的背后过程）在去了解Python编码解码之前，还有个更加重要，但是很多时候却被其他解释相关知识的人所忽略的问题，那就是：对于Py...

2018-05-31 14:48:47 4273

原创 Python中的逻辑回归（Logistic Regression）函数

1. 概述　　　　在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而Logistic...

2018-05-30 17:13:13 40277 1

原创 Python中的shuffle()函数

描述： shuffle()方法将序列的所有元素随机排列语法：import randomrandom.shuffle(lst) 注意：shuffle()是不能直接访问的，需哟啊导入random模块，然后通过random静态对象调用该方法参数： lst --可以是一个序列或者元组返回值：返回随机排列后的序列实例：#!/usr/bin/python# -*- codin...

2018-05-30 14:47:45 16869 1

原创 Python中join()方法的使用

描述： Python的join()方法用于将序列中的元素以指定的字符连接生成一个新的字符串语法： str.join(sequence)参数： sequence 要连接的元素序列返回值：返回通过指定字符连接序列中的元素后生成的新的字符串实例： #！/usr/bin/python# _*_ coding: UTF-8 _*_str = "-";seq = ...

2018-05-30 14:41:11 13084 9

原创 Python中的append和extend的区别

本文主要参考了《Python核心编程（第二版）》网上有很多对这两个函数的区别讲解，但我觉得都讲的不是很清楚，记忆不深刻。这样解释清楚且容易记住。list.append(object) 向列表中添加一个对象object list.extend(sequence) 把一个序列seq的内容添加到列表中music_media = ['compact disc', '8-track tape', 'lon...

2018-05-30 10:24:47 490

原创 Python中的TfidfVectorizer参数解析

vectorizer = CountVectorizer() #构建一个计算词频（TF）的玩意儿，当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))#vectorizer.fit_trans...

2018-05-25 14:46:36 87770 6

原创 jieba分词使用方法

“结巴”中文分词：最好的 Python 中文分词组件特点：支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议安装说明：代码对 Python 2/3 均兼容全自动安装：easy_i...

2018-05-23 15:09:58 37024 1

原创 python中的sys.setdefaultencoding

在python中，编码解码其实是不同编码系统间的转换，默认情况下，转换目标是Unicode，即编码unicode→str，解码str→unicode，其中str指的是字节流，而str.decode是将字节流str按给定的解码方式解码，并转换成utf-8形式，u.encode是将unicode类按给定的编码方式转换成字节流str。注意调用encode方法的是unicode对象，生成的是字节流；调用d...

2018-05-23 11:54:38 7323

原创 python实现文本分类

一、中文文本分类流程：1. 预处理2. 中文分词3. 结构化表示-构建词向量空间4.权重策略-TF-IDF5. 分类器6. 评价二、具体细节1.预处理 1.1. 得到训练集语料库本文采用复旦中文文本分类语料库，下载链接：https://download.csdn.net/download/laobai1015/10431543 1.2 得到测试集语料库同样采用复旦中文文...

2018-05-23 11:13:38 32150 23

转载逻辑回归实现文本分类

基于sklearn的文本分类—逻辑回归本文是文本分类的第一篇，记录使用逻辑回归进行文本分类任务，数据集下载地址:http://thuctc.thunlp.org/文本分类的主要内容如下: - 1.基于逻辑回归的文本分类 - 2.基于朴素贝叶斯的文本分类 - 3.使用LDA进行文档降维以及特征选择 - 4.基于SVM的文本分类 - 5.基于多层感知机MLPC的文本分类 - 6.基于卷积神经网络词级别...

2018-05-01 14:56:29 7940 1