自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

建模分析师胡选来

大数据架构师,电商和外贸分析,证券和产业分析

  • 博客(108)
  • 收藏
  • 关注

原创 汽车产业链SCP分析框架-湖北

2021-07-18 17:50:52 213

原创 wordpress的lnmp环境一键安装和手工配置

wordpress的lnmp环境一键安装和手工配置

2023-10-11 10:19:57 251

原创 反向代理软件frp和混合云组网软件openvpn

1. 企业内网web应用如果想在外网访问,可以使用反向代理软件,让你在家在外地在出差到客户现场的时候都可以通过互联网远程办公。. 部署情况:3台乌兰察布C区的阿里云主机,1台有公网和内网ip(部署openvpn server),另外2台只有内网ip(部署公司内部应用)。2. 如果企业上云了,并且在云主机都是私有云网络,不能公网访问。. 使用场景:我在本地笔记本用openvpn客户端连接远程的openvpn服务器,用内网地址连接ssh登陆阿里云主机,然后可以登陆成功在内网服务器上干活。

2023-10-08 19:58:00 341

原创 curl/wget和git代理配置

1. root用户在ubuntu上安装v(x)ray客户端服务并启动,客户端配置文件可用v(x)ray在windows上服务器列表上右键点击“导出所选服务器为客户端配置”来生成。这样安装脚本中有google或者github下载任务都没问题了,适合用本地虚拟机搭建开发测试服务器的场景。在/root/.bashrc中添加。2. 配置git的代理。

2023-10-08 19:50:07 611

原创 拼多多店铺运营盈亏的计算题(区分小经销商和原始厂家)

问题:要销售一个商品,原价x,毛利y, 每天z单,投入产出比为w,推广费v。商家上架了进价30元的商品,并且知道为了商品好卖需要毛利润不能超过20%,要想每天收入200元以上,需要用什么样的运营人才每天投入多少广告费,每天发多少单货,每天需要多少流动资金?分析过程:约束条件:(x+ y) * z = wvy/x = wv/xz - 1 = 20%yz-v >=200假设一:投入产出比为55*v/(30 * z) - 1 = 0.2则需满足每单成交的推广费为v/z = 36...

2021-09-07 20:09:32 923

原创 企业组织和个体户的区别

企业和个体户的最大区别:是否利用了杠杆。1. 杠杆分两种:一种是直接对接终端客户(普通民众),一种是通过代理(比如政府、客户企业)对接终端客户(一个县级政府有100万市民,一个工业企业通过他的代理商系统有100万民众客户)。2. 软件的杠杆功能:用于1:10万以上的杠杆服务能力,否则只能1:1的服务。如果一次服务的价值是1-10元,则个体户的1:1的服务能力只能有10元可赚,一天服务20单,一天有200元的收入。但企业一天可有10-100万的收入。3. 批发商是利用了杠杆的企业组织,软件公司也是利用了

2021-08-19 17:39:06 240

原创 近期高分辨率卫星数据和价格

图片信息源:http://www.sshy3s.com/ygwx http://www.mapsinfo.net/#/remote卫星影像数据价格(科研遥感影像数据服务云网,以景或者平方公里为单位计算价格):http://www.srdatac.com/scjg

2021-07-29 14:36:45 727

原创 文档开发中预览/编辑/格式转换/内容提取/语言识别/文件服务器/相关的开源/商业组件和库

能用于项目开发的office文件功能:-------------------------pageoffice: 在线编辑office http://www.zhuozhengsoft.com/java/WebOffice (java/jsp) :在线编辑office , 商业版贵kkFileView:文档在线预览 https://github.com/kekingcn/kkFileViewgo-fastdfs:文件服务器UReport2:动态报表------------------------

2021-01-15 20:09:21 205

原创 文档翻译和文本翻译的区别、文档翻译的配套开发组件

文档翻译和文本翻译的区别:-----文档翻译:各类原始文档转换为通用格式(单独一个service),文档图表内容提取(单独一个service)、算法工具翻译和文档格式还原(单独一个service)、专业翻译公司的修改译本。文本翻译:算法工具翻译后文档(单独一个service)、修改译本。形成产品除了核心功能还需要配套的服务:-----翻译服务的高可用:大文档翻译可能经常出错。翻译服务队列:就像打印机需要排队打印一样,文档翻译也需要,尤其针对工业机构、媒体、情报和图书机构翻译文件的同步:文档

2021-01-14 20:55:50 435

原创 法院AI的一些场景-ocr/智能语音--布控/卷宗数字化/违禁取证/智能庭审

法院AI的一些场景:----------(布控)人脸识别服务:1. 设备管理(接数)2. 人员管理(布控对象)3. 图片管理(线索图片)4. 图像搜索(搜索,临时对图片库中布控对象进行查询)5. 监控任务(搜索,持续对视频流中人的比对)6. 预警管理(告警)7. 实时监控(以告警作为聚焦点查看监控设备实时图像)1/2/3是布控的基础设施,4是一种场景,5/6/7是一种场景。----------(法院卷宗数字化)ocr:卷宗智能编目:将各类证照通过ocr提取后归类添加标注卷宗

2021-01-07 14:57:49 346

原创 端到端语音识别的espnet在cpu上aishell预训练模型中文语音配置跑通

#系统环境ubuntu 20.04 lts, 系统安装的python3默认为python3.8#安装环境:sudo apt updatesudo apt-get install python3 cmake sox libsndfile1-dev ffmpeg flac -ycurl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython3 get-pip.pygit clone https://github.com/espnet/es

2020-12-24 18:34:12 2388 2

原创 用于语音识别的espnet在cpu上英文语音简单配置跑通

#安装环境:sudo apt-get install cmake sox libsndfile1-dev ffmpeg flacgit clone https://github.com/espnet/espnetcd espnet/tools./setup_python.sh $(command -v python3)make TH_VERSION=1.3.1 CPU_ONLY=0#测试asr demo前的环境准备cd egs/tedlium2/asr1 && . ./pat

2020-12-22 10:20:04 838 2

原创 自动生成视频字幕的库autosub

自动生成视频字幕的库:https://github.com/agermanidis/autosub主要步骤:1. ffmpeg抽取视频中语音流2. audioop抽取出的单句话的语音片段(并行)3. 调用google speech api翻译片段(并行)4. 生成语音识别结果,构造srt字幕格式这个库的思路可以用于录音文件识别/呼叫中心音频文件转写,但基础是短语音识别。...

2020-12-15 16:00:47 853

原创 DeepSpeech(tensorflow)和ASRT_SpeechRecognition识别效果对比

######DeepSpeech(tensorflow)######pip3 install deepspeechwget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh-CN.pbmmwget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh

2020-12-11 19:54:11 1021

原创 用opencv实现视频稳定防抖video stabilization(来自learnopencv)

代码来自https://www.learnopencv.com/video-stabilization-using-point-feature-matching-in-opencv/其中涉及视频光流、图像特征点提取、放射变换、投影变换、用卷积实现移动平均等,是挺好的opencv综合练习材料。原文的参考资料https://abhitronix.github.io/2018/11/30/humanoid-AEAM-3/有一些视频解释,有助于理解代码。import numpy as npimp..

2020-12-10 15:08:59 2243

原创 opencv多对象追踪MultiTracker_create的代码(来自pyimagesearch)

多对象追踪的代码,代码来自:https://www.pyimagesearch.com/2018/08/06/tracking-multiple-objects-with-opencv/1. 首先在python3.6下按照同样版本的opencv和opencv扩展:pip3.6 install opencv-python==4.2.0.32 opencv-contrib-python==4.2.0.32 -i https://mirror.baidu.com/pypi/simple2. 自己选择有

2020-11-10 12:06:41 2401 2

原创 支持hive访问的sqlalchemy库离线安装

需要安装sqlalchemy和pyhive库。下载wheel的命令:pip2 wheel --trusted-host pypi.douban.com -i http://pypi.douban.com/simple -r python-dependencies.txt -w packs其中packs为wheel下载到的目录,python-dependencies.txt为要下载的库列表文件,格式如下:-----pandas==0.23.4numpy==1.16.0sqlalchemypy

2020-08-22 14:47:40 1768

原创 区级政府数据中心公司地址短文本按所属楼宇分类的场景

数据:单位地址数据(数据不规范,约6万个单位);楼宇名称和楼宇地址数据(楼宇地址也不规范,楼宇名称分1-N号楼或者ABC座,186个楼宇)目标:为公司找到所在楼宇建模:抽取出楼宇名称中核心词和楼宇地址中核心词,将这些词以或关系作为where查询条件组成一个sql,用这个sql进行初步筛选;将楼宇名称和楼宇地址的段文本混合作为分类文本,将楼宇id作为分类目标构造分类器,然后以单位地址为输入进行分类;将分类后结果通过规则做进一步过滤,比如如果有x号院x号楼则院号和楼号需要对应;经过粗筛/文本算法分类/结

2020-08-10 15:37:18 285

原创 疫情期北京融资信息分析---疫情对北京社会经济影响分析---科技战疫·大数据公益挑战赛---2020北京数据开放创新应用大赛

目录1 北京金融疫情1.1 宏观1.1.1. 央行“放水”1.1.2 疫情对三驾马车的影响1.2 北京国企和大民企融资1.2.1 金融债1.2.2短期融资券-疫情防控债1.2.3 中期票据-疫情防控债1.2.4同业存单-防疫专项1.2.5 2020年同业存单发行额度1.2.6 2020北京地方政府债1.2.7 互联网公司-ABN疫情防控债1.2.8 市属企业上市平台融资1.2.9 北京控股的债券发行和债券担保平台1.2.10 北京市重大项目..

2020-06-29 18:52:32 3379

原创 河南疫情防控和复工复产资金数据

河南疫情防控资金数据:1.人行降低存款准备金率:河南增加200亿可贷资金。2.人行专项再贷款:人行总额3000亿,河南收到50亿,用于基本生活保障和防疫企业。按名单发放,由发改委、工信部确定和备案重点企业名单,面向9个大银行和10个重点省市的地方银行3.人行再贷款再贴息:人行总额5000亿,河南收到527.2亿(其中再贴现195亿,其余为支农支小再贷款),用于复产复工4.额度:人行郑州中心...

2020-03-21 19:46:13 297

原创 kettle支持全表同步、插入同步、更新同步的配置

源表在mysql:create table tt(id int, name varchar(50), primary key(id));目标表pg:create table tt(id int, name varchar(50), primary key(id));kettle配置信息: “用来查询的关键字”: 填入primary key字段,其他字段不填 ...

2020-01-16 18:23:13 1022

原创 河南军民融合概况

河南的军民融合从2014年集体进入快车道:-------------中国电波科技城:以新乡的中国电科22所为依托。中国电波科技城建成后将形成石油电子、通信与电子工程、天线产品与工程、特种探测、物联网等五大产业。但22所的研发人员配置有问题,22所把主要研发力量放到了青岛分部,这是个大问题。2011年建立,2014年开始有实质活动,开始基建招标等。河南工业技术研究院:目前院长是27所党委副...

2019-11-29 14:02:29 2349

原创 海关的数据挖掘需求

全国海关通关一体化的大背景下,为了能够加快通关速度又能保障安全通关,启用全国海关风险控制中心和税收征管中心,在全国口岸所有运输方式进口的《中华人民共和国进出口税则》全部章节商品,使用“一次申报,分布处置”通关作业流程和企业自报自缴税款,税收征管要素海关审核后置等改革措施。 风险防控中心分析货物是否存在禁限管制、侵权、品名规格数量伪瞒报等安全准入风险并下达布控...

2019-11-29 14:01:56 685

原创 mysql/hive/postgresql/impala用sql进行分组中字符串聚合拼接的写法

mysql: group_concat(distinct switch order by seq_no separator '->')),支持分组内order byhive: concat_ws('->', collect_list(switch))postgresql: string_agg(distinct switch, '->'order by seq_no)imp...

2019-11-07 12:01:33 1660

原创 离线断网环境下在centos7上安装postgresql12

//1. 在有网且安装了centos7的测试服务器上yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpmmkdir pg12_rpm_packs//1.1 下载pg server/client,contrib和其依赖的其...

2019-11-01 13:41:04 984

原创 voacap计算落地场强和电路可靠度

用ITS HFBC软件的voacapw.exe程序实现。软件下载:http://www.greg-hand.com/versions/,下载itshfbc_180417a.exe下载后程序路径:C:\itshfbc\bin_winvoacapw命令行执行的格式要求:https://www.voacap.com/voacapw.html程序调用方法:c:\itshfbc\bin_...

2019-10-18 11:51:59 1249

原创 广播发射机指派的最佳匹配-带权二部图-用munkres的KM算法python库

广播频率指派的最佳匹配:问题描述:N个节目,M个发射机(M>N),Ni节目交给Mj播出时覆盖率是Xi,已知Xi矩阵是X,求节目和发射机的最佳匹配(覆盖率最大)。解法:指派问题转为二部图的完美匹配,采用Kuhn-Munkres算法,用python的munkres库http://software.clapper.org/munkres/变形:匹配对等(N*N矩阵),匹配不对等(M*N...

2019-10-14 17:59:10 360

原创 networkx进行图着色graph coloring并绘图

import pandas as pdimport networkx as nximport matplotlib.pyplot as plt#adjacency matrixdf = pd.DataFrame([[0, 1, 1, 1, 0, 0, 1, 0],[1, 0, 1, 1, 1, 0, 0, 0],[1, 1, 0, 0, 1, 1, 1, 0],[1, 1, ...

2019-10-14 17:48:54 1436

原创 Vertica 9.2和Clickhouse 19.4单表查询性能简单对比

测试环境:3节点/Centos6.5/1 * 250G 7.2KRPM磁盘/16线程/64GB内存/1Gb网络测例: 查询 查询说明 Clickhouse(首次/多次平均) Vertica(首次/多次平均) select count(1) from XXX where L_DATE = '...

2019-05-07 13:49:05 1666

原创 Vertica和Hive表互操作方法比较(hdfs bulk load和shell pipe方法)

目录1. 部署方式选择2. Vertica和Hive互操作方法选择2.1 方法1和性能:hdfs bulk load2.2 方法2和性能:shell pipe2.3 2种方法的比较3 结论1. 部署方式选择Vertica和Hadoop是不相容的集群,磁盘部署方式(vertica是raid, hadoop是jobd)是不一样的,需要分离部署。参考:https://...

2019-05-07 13:44:24 1551

原创 Clickhouse的3节点/3分片/2副本/环形复制拓扑/分布式表/复制表/离线集群/部署

///////////////////////离线安装/////////////////////ubuntu 16:在有网的服务器上下载clickhouse安装包:https://repo.yandex.ru/clickhouse/deb/stable/main/clickhouse-client_19.4.3.11_all.debclickhouse-common-static_19....

2019-04-18 17:38:31 9495 3

原创 Greenplum带优化器的源码编译、离线打包,部署和TPC-DS性能和并发测试

************************编译************************centos 7, raid5, 文件系统xfs,xfs挂载参数:defaults,allocsize=16m,inode64,noatime//安装gp依赖库yum install -y \ apr-devel \ byacc \ bison \ bzip2...

2019-04-13 12:18:35 1061

原创 Vertica服务器集群和客户端部署/Vertica TPC- DS性能和并发测试/Vertica与Hive连通性测试

/*************************服务器集群部署************************///1. 部署准备//cpu/mem/disk/net/filesysystem推荐设置见https://www.vertica.com/kb/GenericHWGuide/Content/Hardware/GenericHWGuide.htm//交换分区查看,交换分区至少2...

2019-04-13 12:12:30 970

原创 python和pip断网/隔离/离线批量安装常用命令

//搜索python项目包https://pypi.org/project///在有网环境准备好get-pip.py, 到pypi网站上搜索并下载wheel, setuptools, pip的wheel文件然后到离线环境通过--find-links安装pipwget https://bootstrap.pypa.io/get-pip.pywget https://files.python...

2019-03-15 20:28:48 555

原创 Centos7环境Greenplum5.17源码编译-开启gporca优化器功能

centos 7//安装gp依赖库yum groupinstall "Development tools" -yyum install zlib-devel openssl-devel bzip2-devel curl-devel libxml2 libxml2-devel readline-devel python-devel perl perl-ExtUtils-Embed ntp p...

2019-03-13 16:42:59 1178

原创 数据仓库简明概念-表类型、建模、建设步骤、分析场景

数仓的概念:******DW表的类型******实体表:用于描述实体特性事实表:全是数字度量,不包含描述维度表:用于分析******DW建模******业务建模:从企业层面划分业务单元,确定业务单元内的业务流程,确定DW项目目标和阶段。领域概念建模:抽取关键概念,概念分组,概念细化和关联。逻辑建模:领域概念实体化并将其数据集成为实体表,概念之间事件作为事件表,确定分析维度作为维度...

2019-02-13 16:48:19 569

原创 用gensim短语发现功能增强jieba中文分词效果

import jiebaimport gensimmddesc = ['测试数据库','用户支付表','支付金额','支付用户']train_corpus = []for desc in mddesc:train_corpus.append("/".join(jieba.cut(desc)).split("/"))train_corpus.append("/".join(jieba.c...

2019-02-13 16:46:35 794

原创 大宗物资采购和运销-煤炭/钢铁/物流数据资源

一级分类 二级分类 数据类型 信息发布单位 数据库栏目地址 价格 授权方式 数据范围 注册试用用户名 密码 行业统计 综合 能源、钢铁、化工 IHS Markit                 能源、钢铁、化工 Verisk Analytics/Argus /Wo...

2019-02-12 16:52:13 622

原创 大数据应用产品设计的模板

产品设计:---------------------------------------------------1. 主业务前台入口是:一个搜索或展示框(搜索、聚合列表)、一个栏目列表(推荐,广告、排名)后台支持是:部署和配置管理、接入、均衡、存储、查询、缓存、处理、同步、连接组件。中间件是:业务逻辑把库内容展示到前台。2. 后台管理界面原型和功能确认:统一认证登录:业务元素配...

2019-01-31 10:32:54 417

原创 mysql到es的实时增量同步工具canal配置步骤

#1. 在自己的测试机器上,利用修改过的canal-1.1.2代码创建发布包,修改的源码和系统各组件的版本可通过第二次commit看到,jdk为1.8git clone [email protected]:huxuanlai/canal-1.1.2-mysql-es.gitmvn clean install -Denv=release在canal-1.1.2-mysql-es/target目录中找...

2019-01-23 17:21:52 4128 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除