国企打工人-CSDN博客

原创 Pandas工作实践数据分析总结

Pandas常用的功能函数和数据处理技巧修改列名称file_data = pd.read_csv(‘data.csv’)file_data.rename(columns = {file_name.columns[0]:’new_name’}, inplace=True) inplace表示是否要修改。重置索引值首选：df_new = df.reset_index(drop=T...

2018-02-24 11:34:02 3593

原创 MAC环境下如何将doc转为docx

Mac环境下轻松将doc转为docx格式文件，不踩坑！

2025-07-31 16:51:40 263

原创腾讯公开词向量数据集

Embedding Dataset -- NLP Center, Tencent AI Lab

2021-11-25 15:51:15 828

snappy-java-1.1.8.3 (2021-01-20)Could not initialize class org.xerial.snappy.Snappym1 no native library is found for os.name=mac and os.arch=aarch64解决方案如下：<dependency> <groupId>org.xerial.snappy</groupId> <artifa

2021-11-19 23:14:05 1795 1

原创 InvalidArgumentError: assertion failed: [predictions must be ＞= 0]

tensorflow 莫名的报这个错误，后来发现定义特征的时候，特征值的值域不在定义的范围内。

2021-11-03 20:13:14 707

原创 lightgbm 训练模型代码

import lightgbm as lgbimport pandas as pddef lgb_train(x_train, y_train, x_test, y_test): clf = lgb.LGBMClassifier( boosting_type='gbdt', # num_leaves=31, num_leaves=31, reg_alpha=0.05, reg_lambda=1.5, .

2021-10-19 21:08:49 840

原创 pandas压缩数据，数据挖掘竞赛必备

场景：很多时候，我们需要读取多个文件数据，导致内存增大，甚至报错。解决方案，在我们读取之后，做一些数据类型的判断，选择合适的数据类型，减少内存占用：import pandas as pdimport numpy as np# 压缩内存函数,文件大小没变化,占用内存减小def reduce_mem_usage(df, verbose=False): start_memory = df.memory_usage().sum() / 1024 ** 2 numerics =

2021-10-13 20:16:21 1169

原创 pyhanlp 安装报错解决方案 for Mac

clang: warning: include path for libstdc++ headers not found; pass '-stdlib=libc++' on the command line to use the libc++ standard library instead [-Wstdlibcxx-not-found] In file included from build/src/jp_thunk.cpp:1: In file included from build/src/...

2021-08-20 21:30:38 622

原创基于ESP-32 CAM 安信可wifi模块的配置

前提是需要xi

2021-06-20 14:20:14 1328

原创 pyspark 将数据转化为TFRecords格式数据

pyspark 将数据转化为TFRecords格式数据spark = SparkSession.builder.config("spark.jars","./spark-tensorflow-connector_2.11-1.15.0.jar").appName("generate active feature").getOrCreate()df = df.read.parquet('xxx.file')df.write.format("tfrecords").mode("overwrite")

2021-04-22 17:17:30 1643

原创 java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.＜init＞()V from

解决方案：增加依赖：<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.7</version></dependency> <dependency> <groupId>org.apache.had

2021-03-30 15:19:35 593 1

原创 python加载xgb模型文件，并查看特征重要性

加载模型import xgboost as xgbmodel = xgb.Booster({'nthread':1})model.load_model("./card_xgb_model_v5")# 查看模型重要性sorted([(i,v) for i,v in model.get_fscore().items()],key=lambda x:x[1])结果如下：[………，('f63', 396), ('f65', 397), ('f56', 405), ('f62',

2020-06-10 10:46:51 3783 2

原创 pyspark：通过sh脚本传参到python文件中

这个过程需要两个文件，其中一个是my.sh文件DT=$1……--driver-memory 6g \--executor-memory 6g \--executor-cores 2 \feat_2.py $DT另外一个是feat_2.pyif __name__ == "__main__": import sys dt = sys.argv[1] sd, ed = Util.raise_dt_str(dt, 20)运行的命令是sh my.sh

2020-05-24 09:46:29 1051

原创 spark报错：scala.reflect.internal.MissingRequirementError: object java.lang.Object in compiler mirror

在写spark streaming的时候依赖报错解决方式：删掉报错的依赖包，让maven重新下载，然后就解决了。

2020-04-27 10:59:18 4626

原创 pyspark 字典嵌套

创建嵌套字典结构：('3', {'test': {'aaa': [[44, 5]]}}), ('2', {'test': {'bbb': [[2, 4], [3, 4]]}})# 存储这样的数据，schema怎么写def get_schema(): return StructType([ StructField('imei', StringType(), ...

2020-04-26 15:36:40 916

原创 python建立字典的嵌套——字典嵌套字典

需求是需要存储一个map结构的数据，map里面存储list类型的数据：from collection import defaultdictobj = defaultdict(lambda :defaultdict(list))如果想要遍历的话，data = {i: {j: k for j, k in v.items()} for i, v in event_map.items(...

2020-04-24 21:07:59 1546

原创 spark报错java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.ja...

2020-04-10 22:47:39 7794 3

原创 spark报错Error while instantiating 'org.apache.spark.sql.internal.SessionState'

Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.internal.SessionState'……………………Caused by: java.lang.reflect.InvocationTargetException...

2020-04-10 21:11:10 3874

原创 spark分布式平台训练xgboost一个需要注意的地方

经过transform转换之后，会出现如下几列，其中rawPrediction的值，文档解释是的边距，有点抽象：举个例子来说，我用鸢尾花训练数据transform之后的结果如下[[5.0,2.0,3.5,1.0],2.0,[-0.18701201677322388,-0.18626302480697632,1.2945261001586914],[0.156238853931...

2020-04-09 11:24:44 950

原创 python 二维数组转一维数组

import operatorfrom functools import reducea = [[1,2,3], [4,6], [7,8,9,8]]print(reduce(operator.add, a))>>>[1, 2, 3, 4, 6, 7, 8, 9, 8]

2019-09-25 14:54:27 24204 2

原创 python将列表格式的字符串转化为列表

from ast import literal_evala = "[2,3,4,5]"literal_eval(a)>>>[2, 3, 4, 5]非常奏效，推荐使用！

2019-09-25 14:49:38 2702

原创 python将大文件分割成小文件

import pandas as pdimport osdef read_josn(fn): df = pd.read_json(fn,lines=True) return df# 核心思想是根据index与大数进行除法运算分组def split_df_to_files(df): df['index'] = [x // 1000 for x in list(d...

2019-09-25 14:39:34 1326

原创 c++读取数据文件

2019-01-04 15:53:35 1469

原创利用Pandas向csv文件追加

# -*- coding:utf-8 -*-import osimport timeimport pandas as pdfrom multiprocessing import Pooldef merge(filename): return pd.read_csv('./fun_data/'+filename)if __name__ == "__main__": ...

2019-01-03 09:31:55 11051 1

原创 json转成pandas的一些坑

在工作中，有一些数据的格式是json，但是在处理数据的时候，需要我们转成pandas格式的来做数据的处理。import pandas as pdimport jsonfrom pandas.io.json import json_normalizedata = '{"a":"value1","b":"value1"}'json.loads(data)>>> {...

2018-12-22 20:21:03 5704

原创 pandas数据判断是否为NaN值的方式

实际项目中有这样的需求，将某一列的值，映射成类别型的数据，这个时候，需要我们将范围等频切分，或者等距切分。具体的做法可以先看某一些特征的具体分布情况，然后我们选择合适的阈值进行分割。def age_map(x): if x < 26: return 0 elif x >=26 and x <= 35: return 1 ...

2018-09-26 08:49:29 81806

原创二维坐标排序

要求是：横坐标升序，如果横坐标相同，按照纵坐标降序排列。new_data = sorted(data,key=lambda x:(x[0],-x[1]))

2018-09-19 18:17:59 2600

原创刷题四：给定字符串，转化为数字

leetcode原题：其实也就是实现一个atoi的函数。思路如下：首先要找到数字出现的位置，如果数字前面有空格，不做处理，往下继续遍历。最后再判断是否为32位所能容纳的范围内。C++代码如下：int Myatoi(string s){ if(s.empty() == true) return 0; int temp = 0; bool sig...

2018-09-02 19:18:21 364

原创从POI点找到边界

工作中有这样的一个需求，通过历史订单的经纬度点，进行一个聚类，聚之后我们需要找到它的边界点存储。聚类的操作有基于Kmeans的和DBSCAN的密度聚类，只是这里需要注意，经纬度点的聚类需要用到距离的计算，不能简单的作为欧式距离或者曼哈顿距离。因为地球是一个球面，在根据经纬度点计算距离的时候，需要先把点投放到平面上，才能保证计算的距离是有意义的，因此，需要根据两个经纬度点计算距离的时候，如下的计...

2018-09-02 12:42:16 1647

原创 PCA的过程

操作流程：1、去除平均值，让每一维特征减去各自特征的平均值2、计算协方差矩阵如果数据是三维的，那么协方差矩阵是这样的。主对角线上是方差，非对角线是两两元素的协方差。协方差的绝对值越大，对彼此的影响就越大。3、计算协方差矩阵的特征值与特征向量4、对特征值从大较小的排序5、选择最大的K个特征值，对应的特征向量6、将数据转换到K个特征向量构建的新空间中。具体做法是...

2018-08-09 09:22:24 5528 1

原创刷题三：给定一个排序数组和目标值，求下标

给定一个排序数组nums(无重复元素)与目标值target，如果target在nums里出现，则返回target所在下标，如果target在nums里未出现，则返回target应该插入位置的数组下标，使得将target插入数组nums后，数组仍有序。//// main.cpp// binary_serarh_insert_index//// Created by tong on 20...

2018-06-12 18:16:41 1400

原创 Xcode如何修改字体大小

Mac平台，如何修改字体大小：如下操作：11、打开Xcode点击左上角22、选择下拉列表Preferences（或者使用快捷键Command+，“逗号”）33、Command+A，全选右侧的Source Editor下的item，点击Font后面的T按钮，会弹出Fonts对话框，即可将默认字体大小11,修改。第三步很重要，否则改变的只是一部分大小，并非所有字体都改变。...

2018-06-11 16:13:32 16565

原创刷题二：求有序数组中非重复元素少于等于两个元素的个数

题意：For example, Given sorted array A = [1,1,1,2,2,3],Your function should return length = 5, and A is now [1,1,2,2,3]此时返回的是5，也即是元素的个数。int solution(vector<int> &nums){ int index = 2; ...

2018-06-10 14:40:25 316

原创刷题一：移除重复元素返回非重复元素的个数

For example, Given input array A = [1,1,2],Your function should return length = 2, and A is now [1,2].其中，重复元素的个数，最多为两次。如果大于两次，请看下一个算法题解。//// main.cpp// remove_dupclicated//// Created by tong on...

2018-06-10 14:06:45 448

原创 python实现selenium自动登录微博抓取数据

#coding = utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_cond...

2018-06-09 21:06:30 2854

原创 pandas重新生成索引

在数据处理的过程中，出现了这样的问题，筛选某些数据，出现索引从600多开始，但是我希望这行数据下标从0开始。这个时候，我想到的是:df.reindex(range(length))但是查看一下数据之后，发现0-624之间的值全为Nan，显然不是我需要的数据。最后找到了说明：pandas调用reindex方法后净会根据新索引进行重排，如果某个索引值当前不存在，就会引入缺失值；...

2018-06-08 10:51:39 25694 6

原创 pandas筛选某列出现编码错误

df = df[df['cityname']==u'北京市']记得，如果用的python2，一定要导入import sysreload(sys)sys.setdefaultencoding('utf-8')或者在中文前面加入u'表示unicode编码的，因为pandas对象中中文字符为unicode类型的。...

2018-05-29 17:03:38 703

原创如何将字符串转化为二维列表

比如这样的字符串：data = "120.927444,31.036067;120.927369,31.036068;120.927226,31.036123;120.926748,31.036288;120.926044,31.036519;120.925804,31.036683;120.925706,31.036771;120.925675,31.03692;120.925967,31.03...

2018-05-29 15:05:43 5054 1

原创求旋转数组中最小元素问题

#include <stdio.h>#include <iostream>#include <vector>using namespace std;int get_min(vector<int> & arr){ unsigned long length = arr.size(); int min = arr[0];...

2018-05-29 13:49:11 195

（老罗）安卓的系统框架介绍

老罗第一讲安卓的系统应用框架（PPT）第一集。

2012-10-25

2440单片机开机初始化代码

该资源为单片机ARM2440，初始化启动汇编代码，嵌入式学习者必看的知识，个人感觉很有用，而且注释很全面！值得一看！

2013-09-24

计算机网络第五版 ppt

计算机网络第五版，谢希仁教材，考研同学的参考资料。

2013-09-09

ADS1.2实例

ADS1.2中文实例，入手者值得一看的，也是最为本科生期间自学的参考手册。

2013-09-24

TC35i收发短消息原理解释

一．概述 3 二．TC35简介 3 1．TC35I模块介绍 3 2．电源 4 三．AT指令 5 1．AT命令语法介绍 5 2．单片机与TC35I通行协议注意事项 5 3．编码方式 5 4.常见指令介绍 7 …………………… …………………………

2013-11-19

APK反编译得到源代码和图片及布局

可以利用一些辅助工具，查看打包后的源程序和一些布局图片的详细信息。有利于更进一步学习~~

2012-10-24

算法和数据结构考研必备

算法与数据结构考研试题精析，经典例题，适合有一定基础的朋友看！参考书是，严蔚敏的数据结构C语言版。

2013-09-20

陀螺仪模块的使用

陀螺仪模块的使用说明，以及配套例程。用于单片机开发，智能车设计等毕业设计中。

2015-03-13

计算机网络（英文高清版）

国外的教材，很好的一本书，可以提高自己的英文水平，最棒的就是有助于写论文。

2015-09-24

ADT最新插件

eclipse工具开发android所需插件，ADT20.0.3最新的版本，还有18.0.0版本。

2012-10-24

基于单片机的电子密码锁的设计程序

根据设定好的密码，采用二个按键实现密码的输入功能，当密码输入正确之后，锁就打开，如果输入的三次的密码不正确，就锁定按键3秒钟，同时发现报警声，直到没有按键按下3种后，才打开按键锁定功能；否则在3秒钟内仍有按键按下，就重新锁定按键3秒时间并报警。

2013-11-23

安卓软件反编译工具包（最新）

可以查看安卓软件反编译后的代码，更有利于学习，借鉴！

2012-11-01

Android高级编程

介绍了安卓的高级应用，内容比较清晰，pdf格式的。代码清晰可见。

2012-10-24

arm破解文件

ARM集成开发环境ADS1.2的破解文件下载、安装。

2013-09-09

安卓程序源码解析

该压缩包内含有十多个安卓程序的源码，有facebook客户端，语音视频通话，开源浏览器，游戏引擎，pdf查看器等，最新的文档，分享给大家。

2012-11-22

陀螺仪资料

三轴陀螺仪 MPU6050的一些介绍和例程。

2015-04-19

网站开发教程

在培训班整的资料，适合拿来阅读，有一定的针对性。高手略过。

2015-09-24

超声波测距资料

超声波测距模块，给大家提供所需的资料，共同学习，里面有超声波测距数码管显示，超声波模块的介绍，以及原理和参数。

2012-11-24

嵌入式实时操作系统

主讲老师：邵贝贝。共计十二章，非常值得嵌入式系统学习的朋友借鉴，以及工作的人士，第一张讲了范例，第二章为实时系统的一些概念

2013-09-10

我所看到的世界《The World I See》

李飞飞教授的自传《The Worlds I See》（我所见的世界）英文版11月出版了，目前还没看到中文版。此前对李飞飞教授了解并不多，除了知道她是大名鼎鼎的ImageNet发起人，以及斯坦福SAIL人工智能实验室第一位女性主任。这次读了教授的自传，实话说，超出预期。没想到一位大科学家的文笔如此之好，教授以女性特有的细腻笔触，将自己事业和生活上的故事娓娓道来，行文之间流露着大学者的淡然，同时又把真实的工作生活经历讲得引人入胜。在阅读过程中，城主不止一次感觉到教授的行文叙事有一种强烈的电影蒙太奇感，工作和生活的线索交织前行，节奏非常好。更不用多强调的是，这是一位AI大佬亲身讲述的自身科研经历和生活思考，不说文学性，其信息本身就有巨大的价值。

2024-03-10

基于Boder-line的SMOTE算法

如何处理样本不均衡的问题，不局限于上采样或者下采样，还有一种是smote生成少数类的样本，但是传统的smote具有一定的局限性，本论文可以提供一些参考和解决的思路。

2018-07-17

ARM培训精华

周立功ARM培训精华，全套。完整版。想对ARM进一步学习可以看看。

2017-10-21

深入理解OpenCV 实用计算机视觉项目解析（完整版）

《深入理解OpenCV：实用计算机视觉项目解析》系统地介绍如何使用OpenCV来构建与计算机视觉相关的应用，如增强现实、车牌识别、人脸检测等。每章都会介绍一个典型的计算机视觉应用问题，并并提供相关的背景介绍及全部源代码，为快速解决实际计算机视觉项目遇到的问题提供系统实用指南。

2015-12-09

21天精通Linux_C语言开发

和书配套的高清PPT，原版。需要的朋友，希望能帮助到你们。

2015-12-06

机器学习中numPy库

科学计算库，windows平台下python3.4平台，如果不是会报错。安装祝顺利。

2016-12-16

社交网站的数据挖掘与分析

Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据，但是你怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术，如何通过可视化帮助你找到你一直在社交世界中寻找的内容，以及你闻所未闻的有用信息。, 每个独立的章节介绍了在社交网络的不同领域挖掘数据的技术，这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。, •获得对社交网络世界的直观认识, •使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn之类的社交网络API中的数据, •学习如何应用便捷的Python工具来交叉分析你所收集的数据, •通过XHTML朋友圈探讨基于微格式的社交联系, •应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术, •通过基于HTML5和JavaScript工具包的网络技术建立交互式可视化

2017-04-16

AaYuanShiWuYu-2.ttf

对于中文字体，用wordcloud制作词云的时候，需要加载中文字体。本资源就是为了解决这个问题，加载的时候 wordcloud.WordCloud(width=800,height=500,background_color='black',font_path="./AaYuanShiWuYu-2.ttf")，可以完美解决！

2020-04-14

视觉机器学习20讲_源代码

《视觉机器学习20讲》是计算机、自动化、信息、电子与通信学科方向的专著，详尽地介绍了K-Means、KNN学习、回归学习、决策树学习、Random Forest、贝叶斯学习、EM算法、 Adaboost、SVM方法、增强学习、流形学习、RBF学习、稀疏表示、字典学习、BP学习、CNN学习、RBM学习、深度学习、遗传算法、蚁群方法等基本理论；深入阐述了视觉机器学习算法的优化方法和实验仿真；系统地总结了其优点和不足。本书特别重视如何将视觉机器学习算法的理论和实践有机地结合，解决视觉机器学习领域中的诸多基础问题，可应用于医学图像分析、工业自动化、机器人、无人车、人脸检测与识别、车辆信息识别、行为检测与识别、智能视频监控等。本书特别重视算法的典型性和可实现性，既包含本领域的经典算法，也包含本领域的最新研究成果。

2015-12-10

机器学习和模式识别

PRML是模式识别和机器学习领域的经典著作，出版于2007年。该书作者 Christpher M. Bishop 是模式识别和机器学习领域的大家，其1995年所著的“Nerual Networks for Pattern Recognition”也是模式识别、人工神经网络领域的经典著作。 PRML深入浅出地介绍了模式识别与机器学习的基本理论和主要方法，同时还涵盖了模式识别与机器学习领域的一些最新进展，不仅适合初学者学习，而且对专业研究人员也有很大的参考价值。全书共738页，分为14章，循序渐进，前后呼应、表达清晰、理解深刻。每章都有相应的习题及答案，有助于学习和教学。

2015-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

（老罗）安卓的系统框架介绍

2440单片机开机初始化代码

计算机网络 第五版 ppt

ADS1.2实例

TC35i收发短消息原理解释

APK反编译得到源代码和图片及布局

算法和数据结构考研必备

陀螺仪模块的使用

计算机网络（英文高清版）

ADT最新插件

基于单片机的电子密码锁的设计程序

安卓软件反编译工具包（最新）

Android高级编程

arm破解文件

安卓程序源码解析

陀螺仪资料

网站开发教程

超声波测距资料

嵌入式实时操作系统

我所看到的世界《The World I See》

基于Boder-line的SMOTE算法

ARM培训精华

深入理解OpenCV 实用计算机视觉项目解析（完整版）

21天精通Linux_C语言开发

机器学习中numPy库

社交网站的数据挖掘与分析

AaYuanShiWuYu-2.ttf

视觉机器学习20讲_源代码

最新版本 zigbee xbee 上位机软件 X-CTU

机器学习和模式识别

Python核心编程以及机器学习必备书籍

X-CTU___支持Win7

Spark快速大数据分析 高清 完整 带标签 PDF

天猫十万条交易数据

OpenCV3编程入门

PHP与MYSQL网站开发全接触

斯坦福大学机器学习课程原始讲义与个人笔记

程序员面试题参考必备

空空如也

计算机网络第五版 ppt

Spark快速大数据分析高清完整带标签 PDF