python
文章平均质量分 94
Halosec_Wei
该博主主攻python数据分析,数据挖掘,机器学习方向
展开
-
python安装虚拟环境
Python虚拟环境介绍与安装:1. 因为python的框架更新迭代太快了,有时候需要在电脑上存在一个框架的多个版本,这时候虚拟环境就可以解决这个问题。2. 通过以下命令安装虚拟环境:pip install virtualenv3. 开辟新的虚拟环境:virtualenv [virtualenv-name]4. 激活虚拟环境: * [类linux]:source [虚拟环境的目录]/bin/activate * [windows]:直接进入到虚拟环境的目录,然后执行activat...原创 2020-10-07 00:54:53 · 288 阅读 · 0 评论 -
处理数据不平衡方法
过采样是补充那些数据量少的样本,使得不同标签的样本量达到均衡。1.随机过采样from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(random_state=0)X_resampled, y_resampled = ros.fit_resample(X, y)2. SMOTE过采样...原创 2019-11-09 21:26:46 · 1166 阅读 · 0 评论 -
dataframe 文本标签标准化与编码化()
from sklearn.preprocessing import LabelEncoderimport numpy as npimport pandas as pddata=pd.read_excel('clean.xlsx')for i in [ '房屋朝向', '所属小区', '装修程度']: le = LabelEncoder() le.fit(np.uniq...原创 2019-11-07 16:27:14 · 1687 阅读 · 0 评论 -
TypeError: reduction operation 'argmax' not allowed for this dtype
方法1>将pandas版本更新为0.20.3或以下,方法1>将idxmax()更换为argmax()注意:不管是idxmax()还是argmax(),都只作用于nparrary,如果是panda下将不能执行,应该用 .values转化为nparrary...原创 2019-02-12 01:33:40 · 2388 阅读 · 0 评论 -
Python3.5+fiddler4 爬取微信公众号点赞,阅读,标题,推送时间等信息
代码测试至2019/03/08有效微信爬虫步骤:必须品:自己的微信公众账号 Fiddler 抓包工具 Python 3+ 版本Fiddler 下载地址HTTP代理工具又称为抓包工具,主流的抓包工具 Windows 平台有 Fiddler,macOS 有 Charles,阿里开源了一款工具叫 AnyProxy。它们的基本原理都是类似的,就是通过在手机客户端设置好代理IP和端口,...原创 2019-03-07 13:10:40 · 11455 阅读 · 77 评论 -
NLP从零开始 Stanford NLP 在Python环境中安装、介绍及使用
Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同 样的实体,指明情绪,提取发言中的开放关系等。1.一个集成的语言分析工具集;2.进行快速,可靠的任意文本分析;3.整体的高质量的文本分析;4.支持多种主流语言;5.多种编程语言的...原创 2019-04-15 17:17:42 · 655 阅读 · 0 评论 -
NLP从零开始 Hanlp 在Python环境中安装、介绍及使用
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构 清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁Hanlp环境安装• 1、安装Java和Visual C++:我装的是Java 1.8和V...原创 2019-04-15 17:19:03 · 1144 阅读 · 0 评论 -
matplotlib 坐标标签设置为中文(中文标签乱码)
from matplotlib.pylab import stylestyle.use('ggplot') plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False 在代码头部运行以上代码,设置中文字体...原创 2019-05-09 15:59:30 · 4241 阅读 · 0 评论 -
基于上下采样的adaboost模型对信用卡欺诈数据进行识别
总体思路: 首先对数据进行预处理,针对在数据集中欺诈案例所占比例甚小,使用下采样与过采样对数据集进行均衡处理 针对机器学习方法,基于单层决策树分类器的adaboost集成学习模型建立。将处理好的数据集中随机选取70%作为训练集,30%作为测试集,针对训练数据利用单层决策树算法建立了多个弱分类器,通过迭代算法进行自适应参数调整学习import pandas as pddata= pd.rea...原创 2019-07-02 23:34:44 · 1012 阅读 · 0 评论 -
Python之Numpy库常用函数大全(含注释)
https://www.cnblogs.com/TensorSense/p/6795995.html转载 2019-01-22 07:04:16 · 550 阅读 · 0 评论 -
Python——赋值、浅拷贝、深拷贝
和很多语言一样,Python中也分为简单赋值、浅拷贝、深拷贝这几种“拷贝”方式。 在学习过程中,一开始对浅拷贝理解很模糊。不过经过一系列的实验后,我发现对这三者的概念有了进一步的了解。一、赋值 赋值算是这三种操作中最常见的了,我们通过一些例子来分析下赋值操作: str例>>> a = 'hello'>>> b = 'hello'&...转载 2019-01-21 21:53:45 · 182 阅读 · 0 评论 -
简单多线程爬取新闻图片
import requests,re #导入requests与正则表达式模块from multiprocessing import Pool#导入多线程模块#定义一个可以重复调用的函数,这个函数实现的功能是获取每个新闻横框的内容def get_new(url):#def 是函数前缀 get_new()是自定义函数名 url是自定义参数 html1 = requests.get(ur...原创 2018-04-15 18:05:56 · 450 阅读 · 0 评论 -
多线程对17吉他网整站批量爬取吉他谱
环境:Python 3.6.4import requests,refrom bs4 import BeautifulSoupimport osfrom multiprocessing import Pooldef find_MaxPage(): url = 'http://m.17jita.com/tab/img/' html=requests.get(url) ...原创 2018-04-19 22:06:45 · 589 阅读 · 0 评论 -
机器学习日志——史上最白话的神经网络教程
先贴出BP神经网络代码如下:class NeuralNetwork: def __init__(self, layers, activation='tanh'): if activation == 'logistic': self.activation = logistic self.activation_deriv =...原创 2018-05-12 23:33:40 · 3171 阅读 · 0 评论 -
就如何爬取ajax加载的网页(js加载的网页)
# 思路如下:# 1,抓取索引页。利用requests请求目标站点,得到索引网页的html代码# 2,抓取详情页内容。解析索引网页的html代码,得到详情页的信息。# 3,下载数据。将图片,标题,url下载到本地# 4,开启循环和多线程。对多页内容进行遍历,开启多线程提高抓取速度import requestsfrom urllib.parse import urlencode...原创 2018-05-20 20:53:26 · 2838 阅读 · 0 评论 -
关于windows下python安装tensorflow
其实网上很多装什么Anocoda,然后再装python的,其实我很反感。因为Anocoda安装需要在python环境安装之前,所以很多人装不成功这里告诉大家一个方法,直接安装python3.5版本,然后直接在后台pip install tensorflow即可安装成功...原创 2018-06-07 22:41:58 · 633 阅读 · 0 评论 -
python实现车牌识别
某天回家之时,听到有个朋友说起他正在做一个车牌识别的项目于是对其定位车牌的位置算法颇有兴趣,今日有空得以研究,事实上车牌识别算是比较成熟的技术了,这里我只是简单实现。我的思路为:对图片进行一些预处理,包括灰度化、高斯平滑、中值滤波、Sobel算子边缘检测等等。利用OpenCV对预处理后的图像进行轮廓查找,然后根据一些参数判断该轮廓是否为车牌轮廓。 效果如下:test...原创 2018-07-26 23:33:34 · 30714 阅读 · 19 评论 -
python requests+json爬取ajax加载 爱彼迎深圳所有房源
目的:爬取爱彼迎深圳所有房源的房主,价格,房源介绍等信息 步骤如下: step1:获取房源页面url登陆爱彼迎网站,搜索深圳房源https://zh.airbnb.com/s/homes?refinement_paths%5B%5D=%2Fhomes&adults=0&children=0&infants=0&todd...原创 2019-01-21 21:33:11 · 5796 阅读 · 16 评论 -
python 列表的一些输出方式
# a = np.arange(10) # print a # # # 获取某个元素 # print a[3] # # # # 切片[3,6),左闭右开 # print a[3:6] # # # # 省略开始下标,表示从0开始 # print a[:5] # # # # 下标为负表示从后向前数 # print a[3...原创 2019-01-13 17:10:40 · 3344 阅读 · 0 评论 -
史上最全的BeautifulSoup解析(基本选择器,标准选择器,css选择器)
#写在前面基本使用html = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><原创 2018-04-08 19:58:29 · 15632 阅读 · 2 评论