自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 不可不说的Java“锁”事

前言Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码(本文中的源码来自JDK 8和Netty 3.10.6)、使用场景进行举例,为读者介绍主流锁的知识点,以及不同的锁的适用场景。Java中往往是按照是否含有某一特性来定义锁,我们通过特性将锁进行分组归类,再使用对比的方式进行介绍,帮助大家更快捷的理解相关知识。下面给出本文内容的总体...

2018-12-26 22:22:32 333

转载 数据竞赛系列

1.方法论1.1 EDA传统问题低维度特征可视化与强特征构造:https://www.kesci.com/apps/home/project/59f687e1c5f3f511952baca0 时间序列问题EDA的分析角度,时序必备背景知识(2.1和2.2是翻译的经典时序书籍Forecasting Principles and Practice的前两章节,很多比赛的时序特征工程以及模型的选...

2018-07-27 15:05:19 1479

转载 海量数据处理:十道面试题与十个海量数据处理方法总结(大数据算法面试题)

第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相...

2018-06-09 17:11:57 182

原创 yolov4-TensorFlow版本使用教程与部分bug解决

起因公司因项目需求,需要提升目标检测速度。原始框架为:yolov3-keras,后发现满足不了检测速度,准备更换前段时间刚出的yolov4代码在github上找到一堆代码,

2020-07-13 11:01:42 182

原创 git常用命令

git常用命令git clone #第一次下载项目git add . 或 git ass -A #添加本地工作区修改到暂存区git commit -m '描述' #提交暂存区的修改到版本区git push 或 git push origin 远端分支名 #将本地的分支提交到远端git push origin --delete 远端分支名 #删除远端分支git branch -a #查看所有的分支 本地+远端git branch -d 分支名 #删除本地某个分支git checkout 分支名

2020-06-15 11:02:25 66

原创 记录一下自己的沮丧日子——关于糟糕的三月四月

一. 三月总结三月初 公司事情少,基本上没有怎么烦心的。中旬 上司让我做关键点检测,很苦恼。我使用了传统cnn,vgg16,resnet18等算法,均不理想。上司让我更换框架。我是使用以前已经写好的keras框架进行修改的,人脸5个关键点检测,使用传统方法,非常理想,但是在工业件上,特别特别捞!!!!!acc线上89%,线下30%,无法提高,即使使用大量的扩充数据方法也无济于事。然后在gith...

2020-05-08 13:39:17 76 1

转载 git commit之后,想撤销commit

写完代码后,我们一般这样git add . //添加所有文件git commit -m “本功能全部完成”执行完commit后,想撤回commit,怎么办?这样凉拌:git reset --soft HEAD^这样就成功的撤销了你的commit注意,仅仅是撤回commit操作,您写的代码仍然保留。说一下个人理解:HEAD^的意思是上一个版本,也可以写成HEAD~1如果你进行了2...

2020-04-21 10:59:50 64

原创 利用py2neo建立金融知识图谱(1)

数据来源选择tushare的公募基金管理人接口,获取所需要的数据import tushare as tsimport pandas as pdimport timetoken = ''ts.set_token(token)pro = ts.pro_api()df = pro.fund_company()# df.to_csv("jijin.csv",encoding="utf_8...

2020-02-28 22:20:14 272

原创 scrapy复习(豆瓣250电影存mysql)

前言最近在家太无聊,开始看以前在慕课学的课程。顺便学习下scrapy这个以前半懂不懂的框架。Python最火爬虫框架Scrapy入门与实践代码首先新建项目在cmd中输入scrapy startobject xxx第二创建爬虫进入spider文件夹下,scrapy genspider 自己爬虫名字 域名第三确定目标编写item.py确定要保存的字段# -*- coding: u...

2020-01-31 23:00:06 128

转载 keras指定运行时显卡及限制GPU用量

keras在使用GPU的时候有个特点,就是默认全部占满显存。 这样如果有多个模型都需要使用GPU跑的话,那么限制是很大的,而且对于GPU也是一种浪费。因此在使用keras时需要有意识的设置运行时使用那块显卡,需要使用多少容量。这方面的设置一般有三种情况:指定显卡限制GPU用量即指定显卡又限制GPU用量查看GPU使用情况语句(linux)# 1秒钟刷新一次watch -n 1 nv...

2019-12-31 16:47:29 45

原创 股票收益评价指标的几个计算(用于回测)

最大回测率计算import numpy as npimport matplotlib.pyplot as pltdef MaxDrawdown(return_list): '''最大回撤率''' return_list = np.array(return_list) i = np.argmax((np.maximum.accumulate(return_list) -...

2019-12-10 20:43:06 486

原创 解决多TF模型和多Keras模型同时使用,graph问题。

前言项目需要,使用tensorflow和keras混合编程。因为不熟悉tensorflow和keras,导致报错BUG,修复两天,没有好的解决方法。修改过程其实在早期,有修复过类似问题(1个TF模型加1个KERAS),在keras外包一层tf.Graph()完美解决冲突。但是这次更加复杂。需要调用N个TF模型,N个KERAS模型。如果我new多次keras模型,导致graph无法画出。后来...

2019-12-05 15:51:54 485

转载 keras自定义评估函数

原文:https://gist.github.com/yano/3a072e5e2b7a55703028751820bfacbfimport keras.backend as K#precisiondef P(y_true, y_pred): true_positives = K.sum(K.cast(K.greater(K.clip(y_true * y_pred, 0, 1), ...

2019-11-20 11:56:47 335 2

原创 终获省一等奖以及我的专业

浙江省证券投资大赛,已经结束了。很开心,学校参与四年,终于能有一等奖,还是我带队获得的,总成绩第六!去年,我参加美赛之前,找老师辅导,在和老师的闲聊中,听到他说,就我们这种学校没可能获得省一等奖的(证券投资);还有,怼我不懂算法只知道名词堆积的学院内某老师;现实打了你们看笑话的脸。 我知道我专业在学校内是什么地位:漂泊无依,谁都可以踩一脚!先是金贸后是金信,说是重视金融,可我心里明白...

2019-10-27 17:41:01 110

原创 金融文本时间提取

浏览github发现一个有趣的库,:https://github.com/fighting41love/funNLP在里面发现了一个非常非常有用的库:https://github.com/fighting41love/cocoNLP>>> from cocoNLP.extractor import extractor>>> ex = extractor()...

2019-10-23 16:46:50 114

原创 简单构建新闻数据对股票的情绪因子(大盘因子)

简单思路描述:根据前一天的新闻数据,预测后一天大盘涨跌,涨为1,跌为0.构建数据集:import tushare as tsts.set_token(' ')#ts.set_token('your token here')pro = ts.pro_api()df1 = pro.cctv_news(date='20190916')#0df2 = pro.cctv_news(date='...

2019-10-06 10:32:54 477

转载 Word2Vec模型配置参数

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001...

2019-07-23 16:21:52 521

原创 节约读取pandas的内存资源

节约读取pandas的内存资源# reduce memorydef reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 ...

2019-07-19 09:57:09 65

原创 用python调度hanlp

下载jpype1:https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype安装对应版本:pip install xxxxxx(对应文件)注意: pip install jpype1报错下载安装hanlp:官方文档:github:https://github.com/hankcs/HanLP下载地址:https://github.com/hankc...

2019-07-04 14:08:51 1545 1

原创 nltk扩展包下载慢解决办法

下载nltk非常简单:pip install nltk下载nltk扩展包:import nltknltk.download()之后会出现一个NLTK Downloader对话框然后点击下载,你会发现下载很慢,而且很容易出错.。解决办法:1.去github下载:https://github.com/nltk/nltk_data 里面的packages就是我们想要找到的nltk_d...

2019-07-04 13:19:45 5323 19

原创 期末复习:题库练习,自用代码。

把.doc,.docx变为txt工具:http://www.multidoc-converter.com/en/download/index.html操作过程:https://www.jianshu.com/p/1e8af633fc08f = open('C:/Users/Administrator/Desktop/新建文件夹/各讲练习题/转化/第一讲.txt','r',encodin...

2019-06-21 11:40:48 429

原创 金融时间序列处理——(tushare新闻数据合并)添加星期

ts.set_token('')import datetimestart='20160601'end='20170101'list1 = []datestart=datetime.datetime.strptime(start,'%Y%m%d')dateend=datetime.datetime.strptime(end,'%Y%m%d')while datestart&lt...

2019-05-24 14:49:39 565

原创 WordCloud包

基本参数class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, ...

2019-05-15 22:12:28 568

转载 HEXO 部署到云服务器详细指南

一、环境安装1.1 node js 安装yum install gcc-c++ makeyum -y install nodejs验证:node -vnpm -v1.2 安装git、nginxGit 用于版本管理和部署,Nginx 用于静态博客托管。yum install git nginx -y1.3 安装hexo我们使用 Node.js 的包管理器 npm ...

2019-05-12 09:25:53 698 1

原创 kesci任务——公开新闻预测A股行业板块动向,jieba分词尝试

import jiebaimport jieba.analyseimport codecsimport pandas as pdimport numpy as nprows=pd.read_csv('/home/kesci/input/stockpredic_15501/20190506_NEWS.csv',header=0,encoding='utf-8',dtype=str)...

2019-05-10 11:21:40 279

原创 四月有感!未来可期,不可放弃。

不知不觉。我已经好久没敲代码了。。。。应该说自从去年12月开始,我就开始厌恶代码了。 两次数模对我影响很大,最直观的,我身体差了很多。那几天的通宵,导致了我的一些身体指标快速恶化(当然也可能是我长期的生活不规范,但我不承认!(=^ 。^=))然后,我发现我的电脑也慢慢开始老化,带不动我所需求的代码了。另一方面,我感觉我到了一定的瓶颈。我对大数据和人工智能,没有一开始的好奇心了。他们对...

2019-04-15 22:21:00 288 2

原创 sparkstreaming实时读取kakfa到mysql小demo(直读)

步骤:安装部署单机kafka 创建mysql表 sparkstreaming实时消费一.安装kafka注:出于方便以及机器问题,使用单机部署,并不需要另外安装zookeeper,使用kafka自带的zookeeper1.下载https://kafka.apache.org/downloads (使用版本:kafka_2.11-0.10.0.1.tgz)2.编辑server.p...

2019-03-17 11:56:19 554

原创 UpdateStateByKey操作

官网原话:updateStateByKey操作允许您在使用新信息不断更新时保持任意状态。要使用它,您必须执行两个步骤。定义状态 - 状态可以是任意数据类型。 定义状态更新功能 - 使用函数指定如何使用先前状态和输入流中的新值更新状态。在每个批处理中,Spark都会对所有现有key应用状态更新功能,无论它们是否在批处理中都有新数据。如果更新函数返回,None则将删除key-valu。...

2019-03-17 11:02:52 1323 1

转载 阿里云上kafka的安装和配置

下载kafka的地址:https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.11-1.1.0.tgz镜像下载kafkawgethttp://mirrors.hust.edu.cn/apache/kafka/1.1.0/kafka_2.11-1.1.0.tgz然后解压tar -zxvfkafka_2.1...

2019-03-14 15:46:48 435

原创 腾讯云上安装kafka,远程无法访问

腾讯云上安装kafka,远程总是无法访问,本地机器可以。host.name=内网地址 #kafka绑定的interfaceadvertised.listeners=PLAINTEXT://外网映射地址:9092 # 注册到zookeeper的地址和端口...

2019-03-14 15:44:01 449 6

原创 Spark运行脚本 start-all.sh(standalone)

#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional informat...

2019-03-02 17:41:35 502

原创 HDFS命令指南

https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck

2019-02-26 22:55:37 51

原创 spark源码导入IDEA

1.官网下载源码包或者github下载源码版本2.下载的tar包解压后,用open的方式导入IDEA3.利用maven安装必要依赖参考:https://www.cnblogs.com/juncaoit/p/6368371.html...

2019-02-26 21:16:54 214

翻译 时间序列分类实践介绍(使用Python代码)

https://www.analyticsvidhya.com/blog/2019/01/introduction-time-series-classification/介绍分类时间序列数据?这真的有可能吗?可能有什么用呢?这些只是您阅读本文标题时必须具备的一些问题。这是公平的 - 当我第一次遇到这个概念时,我有完全相同的想法!我们大多数人的时间序列数据主要涉及产生预测的交易。无论是预...

2019-02-24 16:36:29 1958

原创 spark的coalesce和repartition算子管理分区

源码地址https://github.com/apache/spark/blob/v2.4.0/core/src/main/scala/org/apache/spark/rdd/RDD.scalarepartition: / ** *返回一个具有正确numPartitions分区的新RDD。 * *可以增加或减少此RDD中的并行度。在内部,这使用 *重新分配数据的随机...

2019-02-20 21:13:21 258

翻译 使用Apache Spark设置Tableau的指南

https://community.tableau.com/docs/DOC-7638Apache Spark是大数据分析中最热门的事情,而Tableau是最热门的数据可视化和发现工具之一。将它们组合在一起,您就可以在大数据分析和可视化领域获得潜在的游戏规则改变。 Tableau 9支持与Spark一起使用,但设置并非完全直截了当,直到您正确设置后端组件设置。 技术堆栈 ...

2019-02-11 21:40:26 408

转载 Keras如何保存和载入训练好的模型和参数

1,保存模型:my_model = create_model_function( ...... )my_model.compile( ...... )my_model.fit( ...... )model_name . save( filepath, overwrite: bool=True, include_optimizer: bool=True )filepath:保存的...

2019-02-10 20:37:03 2794

转载 pandas的ewm函数

官方文档:http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.ewm.htmlhttps://blog.csdn.net/Papageno_Xue/article/details/82705157重要汇总:!!!!!https://blog.csdn.net/xiaodongxiexie/ar...

2019-01-31 16:43:01 7678

转载 Dataframe print 省略号问题

pandas数据分析时经常需要打印输出数据,当数据量大时,输出的展示设置非常重要,好的展示可以帮助更好地理解数据!pandas相关的显示设置函数主要有以下三个:import pandas as pd(1)pd.pandas.set_option('参数名', 参数值) :设置相关显示选项(2)pd.pandas.get_option('参数名', 参数值) :获取相关显示选项(3)p...

2019-01-28 17:04:05 246

转载 利用python的KMeans和PCA包实现聚类算法

 https://www.cnblogs.com/yjd_hycf_space/p/7094005.html from sklearn.cluster import KMeansfrom sklearn.decomposition import PCAimport pandas as pdimport numpy as npimport matplotlib.pyplo...

2019-01-25 22:21:58 539

提示
确定要删除当前文章?
取消 删除