- 博客(114)
- 资源 (40)
- 收藏
- 关注
原创 Pandas工作实践数据分析总结
Pandas常用的功能函数和数据处理技巧修改列名称file_data = pd.read_csv(‘data.csv’)file_data.rename(columns = {file_name.columns[0]:’new_name’}, inplace=True) inplace表示是否要修改。重置索引值首选:df_new = df.reset_index(drop=T...
2018-02-24 11:34:02 3432
原创 spark运行在apple M1报错
snappy-java-1.1.8.3 (2021-01-20)Could not initialize class org.xerial.snappy.Snappym1 no native library is found for os.name=mac and os.arch=aarch64解决方案如下:<dependency> <groupId>org.xerial.snappy</groupId> <artifa
2021-11-19 23:14:05 1626 1
原创 InvalidArgumentError: assertion failed: [predictions must be >= 0]
tensorflow 莫名的报这个错误,后来发现定义特征的时候,特征值的值域不在定义的范围内。
2021-11-03 20:13:14 624
原创 lightgbm 训练模型代码
import lightgbm as lgbimport pandas as pddef lgb_train(x_train, y_train, x_test, y_test): clf = lgb.LGBMClassifier( boosting_type='gbdt', # num_leaves=31, num_leaves=31, reg_alpha=0.05, reg_lambda=1.5, .
2021-10-19 21:08:49 718
原创 pandas压缩数据,数据挖掘竞赛必备
场景:很多时候,我们需要读取多个文件数据,导致内存增大,甚至报错。解决方案,在我们读取之后,做一些数据类型的判断,选择合适的数据类型,减少内存占用:import pandas as pdimport numpy as np# 压缩内存函数,文件大小没变化,占用内存减小def reduce_mem_usage(df, verbose=False): start_memory = df.memory_usage().sum() / 1024 ** 2 numerics =
2021-10-13 20:16:21 1029
原创 pyhanlp 安装报错解决方案 for Mac
clang: warning: include path for libstdc++ headers not found; pass '-stdlib=libc++' on the command line to use the libc++ standard library instead [-Wstdlibcxx-not-found] In file included from build/src/jp_thunk.cpp:1: In file included from build/src/...
2021-08-20 21:30:38 512
原创 pyspark 将数据转化为TFRecords格式数据
pyspark 将数据转化为TFRecords格式数据spark = SparkSession.builder.config("spark.jars","./spark-tensorflow-connector_2.11-1.15.0.jar").appName("generate active feature").getOrCreate()df = df.read.parquet('xxx.file')df.write.format("tfrecords").mode("overwrite")
2021-04-22 17:17:30 1386
原创 java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from
解决方案:增加依赖:<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.7</version></dependency> <dependency> <groupId>org.apache.had
2021-03-30 15:19:35 482 1
原创 python加载xgb模型文件,并查看特征重要性
加载模型import xgboost as xgbmodel = xgb.Booster({'nthread':1})model.load_model("./card_xgb_model_v5")# 查看模型重要性sorted([(i,v) for i,v in model.get_fscore().items()],key=lambda x:x[1])结果如下:[………,('f63', 396), ('f65', 397), ('f56', 405), ('f62',
2020-06-10 10:46:51 3512 2
原创 pyspark:通过sh脚本传参到python文件中
这个过程需要两个文件,其中一个是my.sh文件DT=$1……--driver-memory 6g \--executor-memory 6g \--executor-cores 2 \feat_2.py $DT另外一个是feat_2.pyif __name__ == "__main__": import sys dt = sys.argv[1] sd, ed = Util.raise_dt_str(dt, 20)运行的命令是sh my.sh
2020-05-24 09:46:29 944
原创 spark报错:scala.reflect.internal.MissingRequirementError: object java.lang.Object in compiler mirror
在写spark streaming的时候依赖报错解决方式:删掉报错的依赖包,让maven重新下载,然后就解决了。
2020-04-27 10:59:18 4499
原创 pyspark 字典嵌套
创建嵌套字典结构:('3', {'test': {'aaa': [[44, 5]]}}), ('2', {'test': {'bbb': [[2, 4], [3, 4]]}})# 存储这样的数据,schema怎么写def get_schema(): return StructType([ StructField('imei', StringType(), ...
2020-04-26 15:36:40 830
原创 python建立字典的嵌套——字典嵌套字典
需求是需要存储一个map结构的数据,map里面存储list类型的数据:from collection import defaultdictobj = defaultdict(lambda :defaultdict(list))如果想要遍历的话,data = {i: {j: k for j, k in v.items()} for i, v in event_map.items(...
2020-04-24 21:07:59 1481
原创 spark报错java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.ja...
2020-04-10 22:47:39 7366 3
原创 spark报错Error while instantiating 'org.apache.spark.sql.internal.SessionState'
Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.internal.SessionState'……………………Caused by: java.lang.reflect.InvocationTargetException...
2020-04-10 21:11:10 3659
原创 spark分布式平台训练xgboost一个需要注意的地方
经过transform转换之后,会出现如下几列,其中rawPrediction的值,文档解释是的边距,有点抽象:举个例子来说,我用鸢尾花训练数据transform之后的结果如下[[5.0,2.0,3.5,1.0],2.0,[-0.18701201677322388,-0.18626302480697632,1.2945261001586914],[0.156238853931...
2020-04-09 11:24:44 864
原创 python 二维数组转一维数组
import operatorfrom functools import reducea = [[1,2,3], [4,6], [7,8,9,8]]print(reduce(operator.add, a))>>>[1, 2, 3, 4, 6, 7, 8, 9, 8]
2019-09-25 14:54:27 24056 2
原创 python将列表格式的字符串转化为列表
from ast import literal_evala = "[2,3,4,5]"literal_eval(a)>>>[2, 3, 4, 5]非常奏效,推荐使用!
2019-09-25 14:49:38 2639
原创 python将大文件分割成小文件
import pandas as pdimport osdef read_josn(fn): df = pd.read_json(fn,lines=True) return df# 核心思想是根据index与大数进行除法运算分组def split_df_to_files(df): df['index'] = [x // 1000 for x in list(d...
2019-09-25 14:39:34 1256
原创 c++读取数据文件
文件中的数字以逗号结尾:3.0,2,3,1,2,32,3,4,2,3,24,5,6,7,4,3.0具体代码如下://// main.cpp// Load_Data//// Created by tong on 2019/1/4.// Copyright © 2019年 tong. All rights reserved.//#include <io...
2019-01-04 15:53:35 1407
原创 利用Pandas向csv文件追加
# -*- coding:utf-8 -*-import osimport timeimport pandas as pdfrom multiprocessing import Pooldef merge(filename): return pd.read_csv('./fun_data/'+filename)if __name__ == "__main__": ...
2019-01-03 09:31:55 10903 1
原创 json转成pandas的一些坑
在工作中,有一些数据的格式是json,但是在处理数据的时候,需要我们转成pandas格式的来做数据的处理。import pandas as pdimport jsonfrom pandas.io.json import json_normalizedata = '{"a":"value1","b":"value1"}'json.loads(data)>>> {...
2018-12-22 20:21:03 5609
原创 pandas数据判断是否为NaN值的方式
实际项目中有这样的需求,将某一列的值,映射成类别型的数据,这个时候,需要我们将范围等频切分,或者等距切分。具体的做法可以先看某一些特征的具体分布情况,然后我们选择合适的阈值进行分割。def age_map(x): if x < 26: return 0 elif x >=26 and x <= 35: return 1 ...
2018-09-26 08:49:29 81070
原创 二维坐标排序
要求是:横坐标升序,如果横坐标相同,按照纵坐标降序排列。new_data = sorted(data,key=lambda x:(x[0],-x[1]))
2018-09-19 18:17:59 2453
原创 刷题四:给定字符串,转化为数字
leetcode原题:其实也就是实现一个atoi的函数。思路如下:首先要找到数字出现的位置,如果数字前面有空格,不做处理,往下继续遍历。最后再判断是否为32位所能容纳的范围内。C++代码如下:int Myatoi(string s){ if(s.empty() == true) return 0; int temp = 0; bool sig...
2018-09-02 19:18:21 315
原创 从POI点找到边界
工作中有这样的一个需求,通过历史订单的经纬度点,进行一个聚类,聚之后我们需要找到它的边界点存储。聚类的操作有基于Kmeans的和DBSCAN的密度聚类,只是这里需要注意,经纬度点的聚类需要用到距离的计算,不能简单的作为欧式距离或者曼哈顿距离。因为地球是一个球面,在根据经纬度点计算距离的时候,需要先把点投放到平面上,才能保证计算的距离是有意义的,因此,需要根据两个经纬度点计算距离的时候,如下的计...
2018-09-02 12:42:16 1476
原创 PCA的过程
操作流程:1、去除平均值,让每一维特征减去各自特征的平均值2、计算协方差矩阵如果数据是三维的,那么协方差矩阵是这样的。主对角线上是方差,非对角线是两两元素的协方差。协方差的绝对值越大,对彼此的影响就越大。3、计算协方差矩阵的特征值与特征向量4、对特征值从大较小的排序5、选择最大的K个特征值,对应的特征向量6、将数据转换到K个特征向量构建的新空间中。具体做法是...
2018-08-09 09:22:24 5325 1
原创 刷题三:给定一个排序数组和目标值,求下标
给定一个排序数组nums(无重复元素)与目标值target,如果target在nums里出现,则返回target所在下标,如果target在nums里未出现,则返回target应该插入位置的数组下标,使得将target插入数组nums后,数组仍有序。//// main.cpp// binary_serarh_insert_index//// Created by tong on 20...
2018-06-12 18:16:41 1340
原创 Xcode如何修改字体大小
Mac平台,如何修改字体大小:如下操作:11、打开Xcode点击左上角22、选择下拉列表Preferences(或者使用快捷键Command+,“逗号”)33、Command+A,全选右侧的Source Editor下的item,点击Font后面的T按钮,会弹出Fonts对话框,即可将默认字体大小11,修改。第三步很重要,否则改变的只是一部分大小,并非所有字体都改变。...
2018-06-11 16:13:32 15736
原创 刷题二:求有序数组中非重复元素少于等于两个元素的个数
题意:For example, Given sorted array A = [1,1,1,2,2,3],Your function should return length = 5, and A is now [1,1,2,2,3]此时返回的是5,也即是元素的个数。int solution(vector<int> &nums){ int index = 2; ...
2018-06-10 14:40:25 267
原创 刷题一:移除重复元素返回非重复元素的个数
For example, Given input array A = [1,1,2],Your function should return length = 2, and A is now [1,2].其中,重复元素的个数,最多为两次。如果大于两次,请看下一个算法题解。//// main.cpp// remove_dupclicated//// Created by tong on...
2018-06-10 14:06:45 396
原创 python实现selenium自动登录微博抓取数据
#coding = utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_cond...
2018-06-09 21:06:30 2767
原创 pandas重新生成索引
在数据处理的过程中,出现了这样的问题,筛选某些数据,出现索引从600多开始,但是我希望这行数据下标从0开始。这个时候,我想到的是:df.reindex(range(length))但是查看一下数据之后,发现0-624之间的值全为Nan,显然不是我需要的数据。最后找到了说明:pandas调用reindex方法后净会根据新索引进行重排,如果某个索引值当前不存在,就会引入缺失值;...
2018-06-08 10:51:39 25086 6
原创 pandas筛选某列出现编码错误
df = df[df['cityname']==u'北京市']记得,如果用的python2,一定要导入import sysreload(sys)sys.setdefaultencoding('utf-8')或者在中文前面加入u'表示unicode编码的,因为pandas对象中中文字符为unicode类型的。...
2018-05-29 17:03:38 653
原创 如何将字符串转化为二维列表
比如这样的字符串:data = "120.927444,31.036067;120.927369,31.036068;120.927226,31.036123;120.926748,31.036288;120.926044,31.036519;120.925804,31.036683;120.925706,31.036771;120.925675,31.03692;120.925967,31.03...
2018-05-29 15:05:43 4912 1
原创 求旋转数组中最小元素问题
#include <stdio.h>#include <iostream>#include <vector>using namespace std;int get_min(vector<int> & arr){ unsigned long length = arr.size(); int min = arr[0];...
2018-05-29 13:49:11 152
原创 从地图抓取小区边界经纬度
某德地图会返回假数据,并不是封你IP的策略,一定要注意,有可能也会封,但是我爬的时候,间隔比较长。2、3秒。最后还是用的代理,单机无法完成任务,量比较大。后来根据算法识别出,爬取的这个点是不是真实的数据,有两种方法:其一:判断抓取的连续的经纬度点,是否有锐角,有几个,在真实的数据中很少有图形是锐角的,这种方法,有可能会有误伤。其二:在抓去之后,会有一个area的字段,你可以根据...
2018-05-27 12:57:20 10411 17
深入理解OpenCV 实用计算机视觉项目解析(完整版)
2015-12-09
OpenCV3编程入门
2015-12-09
基于单片机的电子密码锁的设计程序
2013-11-23
我所看到的世界《The World I See》
2024-03-10
AaYuanShiWuYu-2.ttf
2020-04-14
基于Boder-line的SMOTE算法
2018-07-17
社交网站的数据挖掘与分析
2017-04-16
程序员面试题参考必备
2016-09-14
斯坦福大学机器学习课程原始讲义与个人笔记
2015-12-13
视觉机器学习20讲_源代码
2015-12-10
机器学习和模式识别
2015-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人