leofionn-CSDN博客

原创 python-ffmpeg 切割大视频、音频 (时间切片）demo

【代码】python-ffmpeg 切割大视频、音频 (时间切片）demo。

2023-04-17 11:26:44 1220

原创 win10 使用docker 安装centos8全流程（踩坑集锦）

win安装docker，使用centos，ssh链接

2023-02-08 16:37:02 583

原创同花顺：高度口语化强背景知识的文本观点分类 baseline以及思路

kerasbert使用

2022-03-23 10:12:49 1052

原创东吴证券-cpv因子复现系列1——数据集获取

引言最近行情适合量价因子，故选择东吴证券技术分析拥抱选股系列文章来复现。目前完成内容：高频量价、上下影线、换手率分布均匀度、cpv因子数据获取因为东吴证券量价因子需要高频数据，也就是分钟级别，故选用akshare来提取。ak.stock_zh_a_minute(symbol=ts_code.split('.')[1].lower()+ts_code.split('.')[0], period='1')# 获取最近的2w条数据。实时因为akshare的接口设计问题比较多，自行查阅akshare文

2021-09-28 12:26:19 1017

原创腾讯云语音识别总结：cos存储到文字获取

需求背景：对尽调录音进行录音整理。设计：先将录音存储到腾讯云cos对象存储（为啥选腾讯云，当然是腾讯的最便宜啊。。。免费的一个月10小时录音转文字，40g永久免费的存储）代码开发：（直接抄腾讯云自带api生成）# -*- coding=utf-8# appid 已在配置中移除,请在参数 Bucket 中带上 appid。Bucket 由 BucketName-APPID 组成# 1. 设置用户配置, 包括 secretId，secretKey 以及 Regionfrom qcloud_cos

2021-08-30 10:27:47 908

原创春招面试以及心路历程——上海私募量化岗、杭州某电商数仓岗、杭州某金融数据提供商数仓岗、杭州某私募投研岗、杭州某医疗视觉岗

量化岗1、了解哪些机器学习？2、了解哪些量化框架？（vnpy、backtrader）3、简述一下简历上写的svm多因子模型（大二做的垃圾货）4、对于CTA策略有什么看法？数仓岗1、sql中四个join的作用请简述一下。2、spark的提交启动机制3、MR过程4、hr：为什么离开上海、目标薪资金融数仓1、pandas API了解程度2、SQL的CRUD以及窗口函数使用3、ETL整体流程、遇到哪些坑（数据一致性、0丢失、数据倾斜）4、对于金融数据的看法投研岗（因为是实习生，而且我

2021-05-09 09:50:22 631 2

原创笔试面试更新以及秋招总体面试总结（商业银行总行IT管培生、宁波私募、上海大数据平台、北京头部私募数据岗）

总行IT管培生白板笔试，人傻了1、python list题目贼简单，具体忘记了没印象。2、完成一副扑克牌生成、随机打乱、发放等函数import randomdef fapai(): paizu = [] for i in range(4): for j in range(14): paizu.append(str(i)+'-'+str(j)) return paizudef shuffle(x): random.shuff

2020-11-27 11:30:11 778 4

原创 yolov5-cocotxt格式转vocxml

首先：yolov5需要txt格式输入，而且yolov5输出的是txt格式。如果我们的场景是需要xml解析，就需要修改。其思路：先用你的标注工具标注一份xml文件，再根据这份，修改下列代码使yolo输出的txt转换为xml后，标注工具可以识别import cv2import osimport numpy as npxml_head = '''<?xml version="1.0"?><annotation> <folder>VOC2007</fol

2020-11-23 17:45:26 1394 3

原创最近笔试、面试的一些题目（深圳某python量化分析岗、杭州某平台大数据开发岗、上海某量化岗笔试题）以及一个应届生的心路历程

最近笔试一家挂一家，好烦啊。感觉我这几年学到都白学了。当年一上手就是做的项目，一开始就没学数据结构和各种语言基础，校招真的好吃亏。虽然题目现在回想起来，真的真的好基础，但是一笔试就全error。在思考是不是应该去做产品。哎！量化岗：1 编程题目11.1 Python 中类方法、类实例方法、静态方法有何区别？类方法是类的方法，在定义的时候要在上方加上一个@classmethod装饰器来进行装饰，形参是cls，类和实例都可以取调用类方法；实例方法是实例对象方法，只有实例可以调用，类是不能调用的，形

2020-10-28 22:05:07 7070 5

原创 keras在使用预训练模型做冻结层训练的时候，acc和valacc不一致问题

原本地址：https://www.pythonheidong.com/blog/article/365893/78ee2e261bcc9957df4d/上篇文章中介绍;for layer in model.layers: if hasattr(layer, 'moving_mean') and hasattr(layer, 'moving_variance'): layer.trainable = True K.eval(K.update(layer.movin

2020-10-24 17:34:25 666

原创 MySQL复习题：50例子

题目与数据集：https://blog.csdn.net/original_recipe/article/details/91958663踩坑：mysql的字符集(直接粘去用)：show variables where Variable_name like ‘%char%’;查看某一个数据库字符集：show create database test;(注：test为数据库)查看某一个数据表字符集：show create table Student;(注：Student为数据表)修改mysql的字符

2020-10-24 15:44:14 585

原创使用keras.applications和keras_applications构建keras.Model

环境keras==2.2.4First1.使用keras_applicationsimport kerasfrom keras_applications.resnext import ResNeXt50 def ResNeXt(input,classes=3): inputs = Input(input) resnext = ResNeXt50(include_top=True,

2020-10-12 13:51:33 2165

原创数模：个人理财规划（初篇）--复利计算思考

临近毕业，要开始思考毕业论文了。最近因为发生了一些事情，对保险进行了一系列的研究。因为本身是金融专业，课程中也接触了保险、个人资产配置、投资收益等方面的知识。而且刚好处于实习，手上也有余钱，股市环境也不错，就想围绕这些给我自己的未来进行一个规划。前段时间，支付宝保险中可以购买个人寿险。可惜刚出当天我可以购买300万的保险，思考后放弃了，再次想购买的时候，只能花更多的钱买150w的保险单。此处月支出：200+。考虑到未来从

2020-09-07 15:30:34 921

原创 yolov4-TensorFlow版本使用教程与部分bug解决

起因公司因项目需求，需要提升目标检测速度。原始框架为：yolov3-keras，后发现满足不了检测速度，准备更换前段时间刚出的yolov4代码在github上找到一堆代码，

2020-07-13 11:01:42 3124 20

原创 git常用命令

git常用命令git clone #第一次下载项目git add . 或 git ass -A #添加本地工作区修改到暂存区git commit -m '描述' #提交暂存区的修改到版本区git push 或 git push origin 远端分支名 #将本地的分支提交到远端git push origin --delete 远端分支名 #删除远端分支git branch -a #查看所有的分支本地+远端git branch -d 分支名 #删除本地某个分支git checkout 分支名

2020-06-15 11:02:25 289

原创记录一下自己的沮丧日子——关于糟糕的三月四月

一. 三月总结三月初公司事情少，基本上没有怎么烦心的。中旬上司让我做关键点检测，很苦恼。我使用了传统cnn，vgg16，resnet18等算法，均不理想。上司让我更换框架。我是使用以前已经写好的keras框架进行修改的，人脸5个关键点检测，使用传统方法，非常理想，但是在工业件上，特别特别捞！！！！！acc线上89%，线下30%，无法提高，即使使用大量的扩充数据方法也无济于事。然后在gith...

2020-05-08 13:39:17 358 1

转载 git commit之后，想撤销commit

写完代码后，我们一般这样git add . //添加所有文件git commit -m “本功能全部完成”执行完commit后，想撤回commit，怎么办？这样凉拌：git reset --soft HEAD^这样就成功的撤销了你的commit注意，仅仅是撤回commit操作，您写的代码仍然保留。说一下个人理解：HEAD^的意思是上一个版本，也可以写成HEAD~1如果你进行了2...

2020-04-21 10:59:50 2245

原创利用py2neo建立金融知识图谱（1）

数据来源选择tushare的公募基金管理人接口，获取所需要的数据import tushare as tsimport pandas as pdimport timetoken = ''ts.set_token(token)pro = ts.pro_api()df = pro.fund_company()# df.to_csv("jijin.csv",encoding="utf_8...

2020-02-28 22:20:14 1261

原创 scrapy复习（豆瓣250电影存mysql）

前言最近在家太无聊，开始看以前在慕课学的课程。顺便学习下scrapy这个以前半懂不懂的框架。Python最火爬虫框架Scrapy入门与实践代码首先新建项目在cmd中输入scrapy startobject xxx第二创建爬虫进入spider文件夹下，scrapy genspider 自己爬虫名字域名第三确定目标编写item.py确定要保存的字段# -*- coding: u...

2020-01-31 23:00:06 499

转载 keras指定运行时显卡及限制GPU用量

keras在使用GPU的时候有个特点，就是默认全部占满显存。这样如果有多个模型都需要使用GPU跑的话，那么限制是很大的，而且对于GPU也是一种浪费。因此在使用keras时需要有意识的设置运行时使用那块显卡，需要使用多少容量。这方面的设置一般有三种情况：指定显卡限制GPU用量即指定显卡又限制GPU用量查看GPU使用情况语句（linux）# 1秒钟刷新一次watch -n 1 nv...

2019-12-31 16:47:29 460

原创股票收益评价指标的几个计算（用于回测）

最大回测率计算import numpy as npimport matplotlib.pyplot as pltdef MaxDrawdown(return_list): '''最大回撤率''' return_list = np.array(return_list) i = np.argmax((np.maximum.accumulate(return_list) -...

2019-12-10 20:43:06 5052

原创解决多TF模型和多Keras模型同时使用，graph问题。

前言项目需要，使用tensorflow和keras混合编程。因为不熟悉tensorflow和keras，导致报错BUG，修复两天，没有好的解决方法。修改过程其实在早期，有修复过类似问题（1个TF模型加1个KERAS），在keras外包一层tf.Graph()完美解决冲突。但是这次更加复杂。需要调用N个TF模型，N个KERAS模型。如果我new多次keras模型，导致graph无法画出。后来...

2019-12-05 15:51:54 1501

转载 keras自定义评估函数

原文：https://gist.github.com/yano/3a072e5e2b7a55703028751820bfacbfimport keras.backend as K#precisiondef P(y_true, y_pred): true_positives = K.sum(K.cast(K.greater(K.clip(y_true * y_pred, 0, 1), ...

2019-11-20 11:56:47 1696 11

原创终获省一等奖以及我的专业

浙江省证券投资大赛，已经结束了。很开心，学校参与四年，终于能有一等奖，还是我带队获得的，总成绩第六！去年，我参加美赛之前，找老师辅导，在和老师的闲聊中，听到他说，就我们这种学校没可能获得省一等奖的（证券投资）；还有，怼我不懂算法只知道名词堆积的学院内某老师；现实打了你们看笑话的脸。我知道我专业在学校内是什么地位：漂泊无依，谁都可以踩一脚！先是金贸后是金信，说是重视金融，可我心里明白...

2019-10-27 17:41:01 347

原创金融文本时间提取

浏览github发现一个有趣的库，：https://github.com/fighting41love/funNLP在里面发现了一个非常非常有用的库：https://github.com/fighting41love/cocoNLP>>> from cocoNLP.extractor import extractor>>> ex = extractor()...

2019-10-23 16:46:50 408

原创简单构建新闻数据对股票的情绪因子（大盘因子）

简单思路描述：根据前一天的新闻数据，预测后一天大盘涨跌，涨为1，跌为0.构建数据集：import tushare as tsts.set_token(' ')#ts.set_token('your token here')pro = ts.pro_api()df1 = pro.cctv_news(date='20190916')#0df2 = pro.cctv_news(date='...

2019-10-06 10:32:54 2406

转载 Word2Vec模型配置参数

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译，以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001...

2019-07-23 16:21:52 1833

原创节约读取pandas的内存资源

节约读取pandas的内存资源# reduce memorydef reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 ...

2019-07-19 09:57:09 239

原创用python调度hanlp

下载jpype1：https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype安装对应版本：pip install xxxxxx（对应文件）注意： pip install jpype1报错下载安装hanlp：官方文档：github：https://github.com/hankcs/HanLP下载地址：https://github.com/hankc...

2019-07-04 14:08:51 2206 1

原创 nltk扩展包下载慢解决办法

下载nltk非常简单：pip install nltk下载nltk扩展包：import nltknltk.download()之后会出现一个NLTK Downloader对话框然后点击下载，你会发现下载很慢，而且很容易出错.。解决办法：1.去github下载：https://github.com/nltk/nltk_data 里面的packages就是我们想要找到的nltk_d...

2019-07-04 13:19:45 10971 20

原创期末复习：题库练习，自用代码。

把.doc,.docx变为txt工具：http://www.multidoc-converter.com/en/download/index.html操作过程:https://www.jianshu.com/p/1e8af633fc08f = open('C:/Users/Administrator/Desktop/新建文件夹/各讲练习题/转化/第一讲.txt','r',encodin...

2019-06-21 11:40:48 931

原创金融时间序列处理——（tushare新闻数据合并）添加星期

ts.set_token('')import datetimestart='20160601'end='20170101'list1 = []datestart=datetime.datetime.strptime(start,'%Y%m%d')dateend=datetime.datetime.strptime(end,'%Y%m%d')while datestart&lt...

2019-05-24 14:49:39 1049

原创 WordCloud包

基本参数class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, ...

2019-05-15 22:12:28 1281

转载 HEXO 部署到云服务器详细指南

一、环境安装1.1 node js 安装yum install gcc-c++ makeyum -y install nodejs验证：node -vnpm -v1.2 安装git、nginxGit 用于版本管理和部署，Nginx 用于静态博客托管。yum install git nginx -y1.3 安装hexo我们使用 Node.js 的包管理器 npm ...

2019-05-12 09:25:53 1313 1

原创 kesci任务——公开新闻预测A股行业板块动向，jieba分词尝试

import jiebaimport jieba.analyseimport codecsimport pandas as pdimport numpy as nprows=pd.read_csv('/home/kesci/input/stockpredic_15501/20190506_NEWS.csv',header=0,encoding='utf-8',dtype=str)...

2019-05-10 11:21:40 555

原创四月有感！未来可期，不可放弃。

不知不觉。我已经好久没敲代码了。。。。应该说自从去年12月开始，我就开始厌恶代码了。两次数模对我影响很大，最直观的，我身体差了很多。那几天的通宵，导致了我的一些身体指标快速恶化（当然也可能是我长期的生活不规范，但我不承认！(=^ 。^=)）然后，我发现我的电脑也慢慢开始老化，带不动我所需求的代码了。另一方面，我感觉我到了一定的瓶颈。我对大数据和人工智能，没有一开始的好奇心了。他们对...

2019-04-15 22:21:00 534 2

原创 sparkstreaming实时读取kakfa到mysql小demo（直读）

步骤：安装部署单机kafka 创建mysql表 sparkstreaming实时消费一.安装kafka注：出于方便以及机器问题，使用单机部署，并不需要另外安装zookeeper，使用kafka自带的zookeeper1.下载https://kafka.apache.org/downloads （使用版本：kafka_2.11-0.10.0.1.tgz）2.编辑server.p...

2019-03-17 11:56:19 993

原创 UpdateStateByKey操作

官网原话：updateStateByKey操作允许您在使用新信息不断更新时保持任意状态。要使用它，您必须执行两个步骤。定义状态 - 状态可以是任意数据类型。定义状态更新功能 - 使用函数指定如何使用先前状态和输入流中的新值更新状态。在每个批处理中，Spark都会对所有现有key应用状态更新功能，无论它们是否在批处理中都有新数据。如果更新函数返回，None则将删除key-valu。...

2019-03-17 11:02:52 1947 1

转载阿里云上kafka的安装和配置

下载kafka的地址：https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.11-1.1.0.tgz镜像下载kafkawgethttp://mirrors.hust.edu.cn/apache/kafka/1.1.0/kafka_2.11-1.1.0.tgz然后解压tar -zxvfkafka_2.1...

2019-03-14 15:46:48 1059

原创腾讯云上安装kafka，远程无法访问

腾讯云上安装kafka，远程总是无法访问，本地机器可以。host.name=内网地址 #kafka绑定的interfaceadvertised.listeners=PLAINTEXT://外网映射地址:9092 # 注册到zookeeper的地址和端口...

2019-03-14 15:44:01 1193 6

Java核心必读书（包含面试题）.rar

包含：thinking in java 3 chinese 2011-2017年Java面试题集锦 The+JVM+Specification.pdf Java深度历险.pdf Java+Performance.pdf Inside+the+Java+Virtual+Machine.pdf 深入理解Java7.pdf 深入理解Java虚拟机++JVM高级特性与最佳实践.pdf 深入理解OSGi：Equinox原理、应用与最佳实践.pdf 等数十本书

2018-05-10

华泰人工智能系列报告1-45.rar

截止2021年5月31日全部报告

2021-05-31

apache-hive-1.1.0-cdh5.7.1-bin.tar.gz

部署安装mysql5.6， hadoop-2.6.0-cdh5.7.1 伪分布式已启动，即在hadoop上部署hive

2018-05-22

spark-2.2.0-bin-2.6.0-cdh5.7.0.tg

spark-2.2.0-bin-2.6.0-cdh5.7.0.tg 由：Java需要7+版本，而且在Spark2.0.0之后Java 7已经被标识成deprecated了，但是不影响使用，但是在Spark2.2.0版本之后Java 7的支持将会被移除； Maven需要3.3.9+版本 hadoop2.6.0cdh5.7.0

2018-03-01

hadoop-2.6.0-cdh5.7.1.tar.gz(编译版)

编译环境如下： jdk1.7 apache-maven-3 protobuf-2.5.0 findbugs-1.3.9 gcc gcc-c++ make cmake openssl zlib ncurses snappy bzip2 lzo lzop autoconf automake

2018-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人