![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
樱夕夕
coder
展开
-
Python---Numpy
为什么要有Numpy? 标准的python使用list来保存一组值,用来当作数组使用,但此时里面存放的是指针,则重结构用于做数值运算比较浪费内存和CPU计算时间。 此外python还有一个array模块,它直接保存数值,但不支持多维也没有各种运算函数,因此也不适合做数值运算。 Numpy由此诞生,它提供了两种基本对象:narray(N-dimensional array object)和ufu原创 2016-10-23 11:38:57 · 495 阅读 · 0 评论 -
Python入门语法要点
博主学习的Python入门语法要点,总结出来和大家分享一下~不定期更新唷原创 2016-07-19 14:25:31 · 621 阅读 · 1 评论 -
python 读取带BOM的utf-8格式文件
**UTF有哪些分类?**UTF-8分为两种,一种是不带BOM的,一种是带BOM的。其中第一种不带BOM的是标准形式,第二种带BOM的主要是微软的习惯。**为什么有BOM的UTF-8?** 微软在UTF-8中使用BOM(Byte order mark)是因为这样可以将UTF-8和ASCII等编码明确区分开。 windows对于utf-8格式的文件存储默认是带有BOM的格式**为什么BO原创 2017-03-27 14:20:02 · 15239 阅读 · 2 评论 -
selenium + phantomjs+python 外网动态爬虫
1.工具:pycharm selenium phantomjs python2.代码:# -*- coding: utf-8 -*-from selenium import webdriverdriver = webdriver.PhantomJS(executable_path='/Users/test/Downloads/phantomjs-2.1.1-macosx/bin/pha原创 2017-05-10 15:56:38 · 1232 阅读 · 0 评论 -
重写gensim.word2vec的文本相似度匹配函数(wmdistance)
1.为什么要重写因为在D jango上莫名其妙的不能import gensim。 从而不能from gensim.models import Word2Vec。 不能load_model.word2vec_model.wmdistance(sentence1,sentence2)。 因此根据原码更改了引入gensim包的部分内容。2.改写后的代码import pyemdfrom gensim原创 2017-05-11 20:05:55 · 5917 阅读 · 0 评论 -
python 查看文档编码格式-chardet
chardetchardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息使用示例:检测txt文档的编码格式import chardetwith open("ace2005-test.txt","rb") as f: data = f.readline() print(chardet.detect(data)){'confidenc原创 2017-10-12 17:39:55 · 822 阅读 · 0 评论 -
用DecisionTree决策树来求取分类阈值
在二分类任务中,我们经常需要根据概率值来确定类别。通常的方法是设定0.5的中间阈值,但是在一些不平衡的任务中,我们并不知道阈值应该设定为多少,这时可以简单的利用决策树的方法,可视化的来求得最优阈值。当然你也可以用一个简单的神经网络来拟合这个阈值。下面就是python调用sklearn库来实现的阈值求解代码:from sklearn import treeX = []Y = []for line原创 2018-03-05 17:12:48 · 6714 阅读 · 2 评论