自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 资源 (3)
  • 收藏
  • 关注

原创 python进行groupby分组的问题记录

groupby的时候直接简单分组会发现数据不是平铺的:#天的数据累加def sum_day(data_01_07): FIELDS_GROUP_BY=['account_id','plan_id'] data_01_07=data_01_07[['account_id', 'plan_id', 'cost','leave_phone_num','clue...

2019-07-11 21:36:28 1677

转载 Python机器学习笔记 使用sklearn做特征工程和数据挖掘

特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也非常强大!  经过前人的总结,特征工程已经形成了接近标准化的流程...

2019-07-02 23:23:27 679

转载 召回率(Recall),精确率(Precision),平均正确率(Average_precision(AP) ),交除并(Intersection-over-Union(IoU)

摘要在训练YOLO v2的过程中,系统会显示出一些评价训练效果的值,如Recall,IoU等等。为了怕以后忘了,现在把自己对这几种度量方式的理解记录一下。这一文章首先假设一个测试集,然后围绕这一测试集来介绍这几种度量方式的计算方法。大雁与飞机假设现在有这样一个测试集,测试集中的图片只由大雁和飞机两种图片组成,如下图所示:假设你的分类系统最终的目的是:能取出测试集中所有飞机的图...

2019-07-02 23:20:20 787

原创 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 40: ordinal not in range(128)

python2.*解决办法:import requests, json, urllib, sys, osreload(sys)#os.chdir(sys.path[0])sys.setdefaultencoding('utf-8')python3.*解决办法:import requests, json, urllib, sys, osimport impimp.reload(...

2019-06-04 15:21:11 260

原创 coalesce 在多个值中选取第一个非空值

在SQL中,当需要从多个值中,取第一个非空值作为结果时,需要使用coalesce函数。用法如下coalesce(SH.SH_TIME, DK.DK_TIME, RG.RG_TIME,PH.PH_TIME,TRG.TRG_TIME,QY.QY_TIME) as SH_TIME...

2019-06-02 16:38:08 1298

转载 hive 中时间戳与时间字符串的相互转换

时间戳是数据库常用的存放日期的形式之一,表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数,与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换,方法如下。一、unix_timestamp 函数用法1、unix_timestamp() 返回当前时间戳。另外,current_timestamp() 也有同样作用。hive> sel...

2019-03-03 12:00:30 12920

原创 由于crontab运行的shell环境与手动shell环境不同导致的脚本运行问题

 1、当使用crontab执行sh脚本时,发现手动运行正常的脚本在crontab上会提示缺少包等问题,通过各种搜索终于发现是环境变量问题,解决方法很简单,只需要在脚本开头增加      source ~/.bash_profile 2、如果手动执行脚本可以成功运行,但crontab却不行,并且crontab执行脚本时报 Permission denied 错误,则是crontab没有执...

2019-02-15 10:29:53 457

转载 python3 发送邮件时中文附件名乱码的问题

  import smtplib  from email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBasefrom email.header import Headerfrom email import encode...

2019-01-22 10:10:22 5324

原创 pandas数据校验--分列---求和---求平均--去重--找出重复数据--旋转表

数据校验 分列(默认空格): 求和---求平均 去重: 找出重复数据旋转表: 

2019-01-05 16:59:19 1046

原创 pandas探索性分析--表合并

一、展示各列之间的相关性合并表merge:合并表join:    

2019-01-05 16:11:50 169

原创 pandas-散点图-直方图-密度图

散点图直方图  密度图 

2019-01-05 15:36:11 2257 1

原创 pandas画图--饼图--折线图-叠加区域图

 饼图 折线图 叠加区域图(反应起伏趋势)  

2019-01-05 15:09:45 2453 1

原创 padas画图--

一、柱状图(pandas)  柱状图(matplotlib) 分组柱状图:叠加柱状图: 水平柱状图:  

2019-01-05 14:41:06 407

原创 pandas数据处理—1

 pandas  跳过空行   列填充实现(index自增,yes和no交替填充 ,月份自增填充) 加日期加年:

2019-01-05 11:20:33 145

原创 文件生成excel文件并将文件夹打包

工作中遇到需要生成大量的excel文件,然后将所有文件放到一个文件夹下,并打包成zip文件,实现了一下两个工具,以便使用:1、excel文件写入工具:package com.research.contactsrepairing.utils;import java.io.File;import java.io.FileOutputStream;import java.io.IOEx...

2018-12-08 16:14:56 974

转载 数据结构算法题/树的遍历(深度优先和广度优先)

转自:https://www.cnblogs.com/toSeeMyDream/p/5816682.html在编程生活中,我们总会遇见树性结构,这几天刚好需要对树形结构操作,就记录下自己的操作方式以及过程。现在假设有一颗这样树,(是不是二叉树都没关系,原理都是一样的)。此外二叉树可以递归的方法遍历。 1、深度优先英文缩写为DFS即Depth First Search.其过程简要...

2018-12-04 19:18:39 1426

原创 springboot 整合 redis(附源码)

这编博客主要介绍了springboot整合redis(以注解的形式)。一、引入redis依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-redis</artifactId> ...

2018-11-24 15:15:58 330

转载 Neo4j使用简单总结

第一章:介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——...

2018-11-17 10:54:19 4084

原创 “d3.js可视化neo4j图数据库”需要用到的测试数据样例

在进行d3进行neo4j数据查询和展示的时候我们可以先通过基本的json样例进行测试,成功展示相应的效果后再根据我们自己的neo4j数据库数据定义情况进行相应的调整样例1:{"nodes":[{"name":"张三","id":1971},{"name":"李四","id":1972}], "links":[{"source&q

2018-11-13 21:29:53 1654

原创 hive UDF 开发示例

一、创建一个java项目 对应的pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2018-11-02 14:48:15 459

转载 logstash报错:Error: Your application used more memory than the safety cap of 1G

问题来源  logstash在数据量少的情况下,是正常抽取数据的,但当多台服务器一起启动logstash去抽取大量数据的时候,logstash就会出现Your application used more memory than the safety cap of 1G的问题,进而抽取程序就停掉了;问题说明  从报错的提示来看,很明显就是内存溢出的问题(logstash的默认服务分配内存的1...

2018-11-02 10:15:23 787

原创 使用response输出随机图片验证码

本项目主要针对于JavaWeb中使用response对象的方法生成一个随机验证码图片,在客户端进行表单注册或者登陆时,需要正确输入随机图片中的数字。        生成随机图片的类为:/** * 每次更改页面src里面内容的时候,img的图像就会相应的改变 * 如果src指向的是一个接口,那么每次改变就会自动去调用接口 * (验证码刷新实现) * 管理员验证码 * * @p...

2018-09-30 15:18:29 859

原创 知识图谱(Knowledge Graph)

这篇文章的目的就是给不了解知识图谱的人做一个简单的科普。一、什么是知识图谱        知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。--- 百度百科        知识图谱2012...

2018-09-28 23:26:23 6837 1

转载 return后是一个字符串还是一个页面-----@controller和@RestController的用法

今天开始用的是@RestController,跳转不到html页面,后来改成@controller就可以跳转了,总结了一下两者的用法和区别。首先两者都是用来表示spring某个类的是否可以接收HTTP请求@RestController注解相当于@ResponseBody + @Controller合在一起的作用。 1)如果只是使用@RestController注解Controller...

2018-08-29 16:26:35 4745 2

原创 带Basec用户验证的接口的java与python调用方式

一、java调用方式package com.credithc.rc.kg.csdata.Utils;import org.apache.commons.codec.binary.Base64;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.clien...

2018-08-29 10:29:45 356

原创 Django新建项目与直接执行SQL语句

一、pycharm新建项目 新建后的项目结构: 二、django 链接mysql数据库配置settingDATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', # 数据库引擎 'NAME': 'ttt_ans', #数据库名称 'USE...

2018-08-28 22:18:06 1804

原创 (一)Hive的基础知识

一.Hive是什么Hive是一个数据仓库基础工具,可以在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。Hive作为一个中间工具,主要作用是将HQL(Hive Query Language)转换为一系列的MapReduce Job,利用Hadoop框架对数据进行类SQL处理,简化在Hadoop框架上实现SQL功能程序的编写。 Hive擅长的是非...

2018-08-21 16:08:49 262

原创 python APScheduler调度出现 'Unable to determine the name of the local timezone -- you must explicitly '

问题描述:Traceback (most recent call last): File "./Premiumizer.py", line 1411, in <module> ...

2018-08-11 11:13:58 2977

原创 pip安装超时(pip更新超时django安装超时)

pip更新超时python -m pip install -U pip --upgrade pip\换源下载django:pip install -i https://pypi.douban.com/simple django

2018-07-23 14:59:11 2415 1

原创 使用Python实现公司地址的(3-4级)标准化

这个博客的目的是实现公司地址的模糊匹配与3-4级标准化,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。因为存在问题的房产信息和电话可能只是相似,而不是完全相同;对于公司地...

2018-07-16 17:01:02 2917 4

原创 java 读取txt文件乱码问题通用解决方案

一、相关知识说明:    1. txt默认的选项是ANSI,即GBK编码    2. txt文本文档有四种编码选项:ANSI、Unicode、Unicode big endian、UTF-8     3. 我们在读取txt文件时可能不知道其编码格式,所以需要动态判断获取txt文件编码进而避免读取乱码问题 二、编码格式说明:    ANSI: 无格式定义      Unic...

2018-07-11 10:43:11 5474

转载 Linux多台服务器间SSH免密登录实现

SSH实现各个服务器间的文件相互备份,如运行scp命令,可以实现免密码登录,从而可以使用SHELL脚本实现一些自动化的处理。假如A机要免密码登录B机,具体方法如下:1、在A机运行:"ssh-keygen -t rsa" 命令,创建公钥信息#ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which ...

2018-06-05 16:46:24 349

原创 ELK+Filebeat 集中式日志解决方案实践(二)---Filebeat安装配置

1.下载和安装https://www.elastic.co/downloads/beats/filebeat1目前最新版本 1.3.0这里选择 LINUX 64-BIT 即方式一方式一:源码wget https://download.elastic.co/beats/filebeat/filebeat-1.3.0-x86_64.tar.gztar -zxvf filebeat-1.3.0-x...

2018-04-12 18:55:31 1471

原创 ES 6.2.2 安装

一、下载es       我这里使用的是6.2.2版本。下载地址如下:        https://www.elastic.co/products/elasticsearch二、解压:    tar zxvf  elasticsearch-6.2.2.tar.gz    解压成功后获得elasticsearch-6.2.2文件夹三、创建es用户默认ES 6.x.x  不允许root用户运行的,否...

2018-03-31 18:52:28 1133

原创 ELK+Filebeat 集中式日志解决方案实践(一)---概述

1、ELK  简介  ELK 不是一款软件,而是 Elasticsearch、Logstash 和 Kibana 三种软件产品的首字母缩写。这三者都是开源软件,通常配合使用,而且又先后归于 Elastic.co 公司名下,所以被简称为 ELK Stack。根据 Google Trend 的信息显示,ELK Stack 已经成为目前最流行的集中式日志解决方案。Elasticsearch:分布式搜索和...

2018-03-05 15:25:02 597

转载 Ubuntu下载及安装

Ubuntu是什么  Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的开源GNU/Linux操作系统,Ubuntu 是基于DebianGNU/Linux,支持x86、amd64(即x64)和ppc架构,由全球化的专业开发团队(Canonical Ltd)打造的。其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词 ,类似儒家“仁爱”的思想,意思是“人性”、

2017-12-05 10:05:44 970

转载 SpringBoot定时任务说明

1. 定时任务实现方式定时任务实现方式:Java自带的java.util.Timer类,这个类允许你调度一个java.util.TimerTask任务。使用这种方式可以让你的程序按照某一个频度执行,但不能在指定时间运行。一般用的较少,这篇文章将不做详细介绍。使用Quartz,这是一个功能比较强大的的调度器,可以让你的程序在指定时间执行,也可以按照某一个频度执行,配置起来稍显复杂,有

2017-12-04 18:24:36 210

转载 Spring 定时任务之 @Scheduled cron表达式

一个cron表达式有至少6个(也可能7个)有空格分隔的时间元素。按顺序依次为秒(0~59)分钟(0~59)小时(0~23)天(月)(0~31,但是你需要考虑你月的天数)月(0~11)天(星期)(1~7 1=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)7.年份(1970-2099)其中每个元素可以是一

2017-12-04 18:22:26 210

原创 HTTP基本认证(Basic Authentication)的java调用示例

一、问题引入大家在登录网站的时候,大部分时候是通过一个表单提交登录信息。但是有时候浏览器会弹出一个登录验证的对话框,如下图,这就是使用HTTP基本认证这种认证的相关介绍在另一篇博客中有介绍,这里不做解释:参见http://blog.csdn.net/qq_15783243/article/details/78586699二、方法示例:

2017-12-01 11:05:57 15717 1

原创 从txt读取信息然后保存到excel中示例

一、导包实现这个功能需要poi的包需要将jar包导入 org.apache.poi poi 3.17-beta1二、代码示例:/** * 读取txt将数据保存到excel * @param args */public static void main(String[] args) { String

2017-11-29 20:09:43 438

springboot整合redis

springboot整合redis:实现了springboot和redis的整合,使用注解形式实现,同时封装了操作类,代码下载即可运行

2018-11-24

全国省市区街道地址信息

省市区(县)街道标准区划,主要用于做地址标准化,至于地址标准化的实现方法可以参照我的一片博客,希望对大家有用,个人简单做了一个标准化代码,经测试准确率在90%以上,后期如果有人需要相关源代码再考虑上传:https://blog.csdn.net/qq_15783243/article/details/81067024#comments

2018-11-13

d3+neo4j查询与展示demo

由于现在网上已有的d3+neo4j的整合资源少之又少,个人大致了解了下很多代码代码例子都是用的测试例子展示而已,甚至有的网上平台的一个学习资源视频就卖到六七百块,在这里先上一个简单demo,实现的是从图数据库查询数据并在页面使用d3进行展示运行项目后访问http://localhost:8081/kg/index1既可看到查询的图结构,希望对学习d3和neo4j的人有所帮助,后续会继续更新d3的相关学习知识

2018-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除