- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 python数据分析之dataframe VS sql
在分析数据时,dataframe的很多方法和sql是类似的,本文总结一些二者中的相通问题,方便互相转移,下面以mysql语法为例。文章目录数据准备1. mysql表2. 文本文件分析实战1. 去重问题2. 分组问题1. 对单列或多列执行相同的聚合操作2. 对多列分别执行不同的聚合操作3. 自定义聚合方法4. 行转列: group_concat数据准备为了同时使用sql和dataframe进行...
2018-11-22 15:23:08 1263
原创 xgboost特征重要性指标: weight, gain, cover
官方解释Python中的xgboost可以通过get_fscore获取特征重要性,先看看官方对于这个方法的说明:get_score(fmap=’’, importance_type=‘weight’)Get feature importance of each feature. Importance type can be defined as:‘weight’: the number...
2018-11-18 16:08:23 28186 8
原创 皮尔逊相关系数和余弦相似度
先看看二者定义,给定两个n维向量A,B:A=(a1,a2,…,an)A = (a_1, a_2, \ldots ,a_n)A=(a1,a2,…,an)B=(b1,b2,…,bn)B = (b_1, b_2, \ldots ,b_n)B=(b1,b2,…,bn)余弦相似度:cos(θ)=A⋅B∥A∥⋅∥B∥=∑i=1nai×bi∑i=1nai2×∑i=1nbi2cos(\th...
2018-10-25 15:23:32 13864 2
原创 在多台电脑上写GitHub Pages博客
之前在公司的mac上写过GitHub Pages,最近离职了,于是想用自己的windows本继续写。本以为安装好nodejs,npm等环境再git pull一下就可以在windows本上写博客,实践了才发现一些问题。git pull下来的内容根本没办法直接在本地显示博客内容,因为少了很多配置等文件。下图分别是mac上(已经拷贝到windows本)可以运行的博客和在windows本上pull下来的文...
2018-09-28 18:31:49 925
原创 链家小区价格爬取
最近有个需求,需要了解市场上小区的均价,于是试着写了个爬虫把链家上小区的信息爬取了一下。这次的爬虫任务比较简单,数据量不大,爬取链接中也没加密字段等反爬取策略,感觉还挺适合作为爬虫入门的例子。下载数据主要利用python requests库来完成,解析html页面用到xpath,下面分享些技巧和经验。开发环境:python3.6pip install requestspip inst...
2018-09-26 13:42:07 1023 2
原创 Python编码问题
title: Python编码问题date: 2018-04-29reward: truetag:python编码一些定义字符(character)字符是文字的最小的组成单位,其为一种抽象定义(不要与 java 或 c 中的 char 类型混淆,后者为特定计算机语言的数据类型),取决于语言或是上下文环境,比如’A’, 'a’为英文中的字符,‘纺’,'织’是汉语中的字符(注...
2018-09-26 13:31:59 535
原创 Windows 10 下安装Tensorflow1.0.1-GPU
Windows 10 下安装Tensorflow1.0.1-GPU之前在自己的windows上安装了tensorflow1.0.1-CPU版,后来想用gpu进行计算,于是安装gpu版。没想到软件之间的依赖关系、版本等导致数种问题,百度谷歌良久才调通程序,特记下曲折的安装过程和一些细节,尽量解释选择软件版本的原因,希望能减轻读者的痛苦。
2017-03-18 16:57:13 2175
Java写QQ2013登录界面
2013-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人