![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 69
Jack_kun
这个作者很懒,什么都没留下…
展开
-
python_爬虫(初入门)
基本实现的功能:抓取、分析、存储。一、URL是什么?由哪些部分构成? 1、简单来说,URL即,浏览器端输入的 http://www.google.cn 字符串 \2、URI是什么?Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位URI的组成:转载 2016-11-17 10:05:46 · 292 阅读 · 0 评论 -
创建conda虚拟环境报错
RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating environment已经安装有conda环境,在希望创建新的虚拟环境、克隆环境、安装包等操作时候,出现如标题的报错。原因:'requests’包是用pip 安装的或者采用python setup.py in...原创 2019-06-12 16:46:57 · 6783 阅读 · 0 评论 -
词云python
词云在开始接触NLP阶段,初试了文字生成的模型,从而在字符级、词级的条件下建立示例的模型。回到最基本的词的内容,通过可视化方式观察词频的情况,对前期的分析也许有些帮助。这类型的词云图,有时候作为PPT汇报的点缀也提升解释性。在此,简单记录绘制的过程,也方便后续回想。import osimport numpy as npnp.random.seed(123)os.environ['CUD...原创 2019-01-30 10:20:07 · 2388 阅读 · 0 评论 -
Feature Engineering-(1)PCA的理解实现
Table of ContentsPCA对比理解与实现一、numpy方式1.数据基本导入2. 绘图函数定义4.计算pca协方差矩阵协方差矩阵的特征值求解查看几个特征值的重要性5.应用求得到的特征值对原数据集进行转换二、采用sklearn1.拟合与训练2.top2的特征值结果3.特征值的重要性(对原数据的可解释性)三、PCA对特征非相关的处理结论:PCA助于减缓特征变量之间的相关性,即使是不减少变...翻译 2018-12-11 15:55:04 · 335 阅读 · 0 评论 -
SVM的核函数之线性和高斯的选择
Table of Contents关于SVM中线性核函数和高斯核函数的选择1.基本数据准备2.各情况对比1. SVM(kernel='linear'):直接采用数据集[966,1850]2. SVM(kernel='rbf'):直接采用数据集[966,1850]3. LR:直接采用数据集[966,1850]4. 降维之后3.小结关于SVM中线性核函数和高斯核函数的选择SVM中常用核函数一般是...原创 2018-12-20 16:31:36 · 16195 阅读 · 3 评论 -
python函数中将变量名转换成字符串
考虑到在日常中,常常需要对模型指标输出,但涉及多个模型的时候,需要对其有标示输出,故需要将模型变量名转换成字符串。看到的基本方法有两种:一、方法层面:方法1(函数内推荐):def namestr(obj, namespace): return [name for name in namespace if namespace[name] is obj]print(namestr(lr...原创 2018-12-20 16:08:04 · 11284 阅读 · 1 评论 -
基于客户提取为所属客户经理的信息
本地处理#!/usr/bin/python# -*- coding: utf-8 -*-# UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a in position 12的暂时解决方法——修改默认encodingimport sysreload(sys)sys.setdefaultencoding('utf-8')fr...原创 2018-10-10 15:44:08 · 105181 阅读 · 0 评论 -
list多层列表展开方法对比
方法一:https://blog.csdn.net/ytfy12/article/details/51162079def printm(listin): abc = [] for ie in listin: if isinstance(ie,list): printm(ie) else: print(...转载 2018-10-10 15:40:13 · 2180 阅读 · 0 评论 -
np.column_stack()数组与列表list的区别
关于np.column_stack()里面1维数组使用[1维数据]之后的区别import numpy as np# np.array((1,2,3),(11,22,33))a=[1,2,3];b=[11,22,33];np.column_stack((a,b))a=[[1,2,3],[10,20,30]];b=[[11,22,33],[110,220,330]];np.column_sta...原创 2018-09-22 20:46:16 · 15985 阅读 · 1 评论 -
反欺诈子研究-特征衍生过程
内容目录1 衍生特征分析过程1.1 数据读取1.2 定义处理单列的数据1.2.1 单列数据的观察1.2.1.1 家庭结构有关1.2.1.2 社交账号有关1.2.1.3 购物数据(京东账号jd_account、淘宝账号alipay_account原创 2018-10-04 20:54:06 · 1461 阅读 · 0 评论 -
关于链家全网房价数据分析挖掘项目
** 关于链家全网房价数据分析挖掘项目数据说明数据信息:数据量:40多万条观测,20多个列变量时间:2018年5月前来源作者:田昕峣获取方式:https://github.com/XinyaoTian/lianjia_Spider项目目标建立单位面积房价的预测模型内容目录1  数据导入2  数据探索:3 原创 2018-09-23 11:54:15 · 4172 阅读 · 4 评论 -
dataframe中分行
dataframe中对某一个cell进行分行在工作中遇到类似下面的数据:index names0 延\t诞\t蜒1 奄\t掩\t淹\t俺2 彦\t颜\t谚3 央\t秧\t映\t殃4 扬\t杨\t汤\t场\t肠任务:需要对每个cell进行分行,即每个字是1行。处理思路:通过pandas读取为dataframe,通过data...原创 2019-07-23 10:11:39 · 1531 阅读 · 0 评论