- 博客(40)
- 资源 (10)
- 收藏
- 关注
转载 商业大数据分析94问
一、概念什么是商业模式:B2B/B2C/B2B2C/C2B/B2VC什么是商业运作:供应链-产品/服务-销售渠道-(营销/风控)-用户-售后客服->财务表现+数据表现商业运作组织有哪些: 前线(销售/渠道/业务)-中台管理(市场/运营/公关)-后台支持(客服/供应链/开发)-战略决策(总办)商业运作组织关心什么:前线(卖货收钱)-中台(品牌客户产品线助力营销)-后台(供应质量服务)-战略决策(往哪走/走多远/走多快)解决商业问题的能力: 权力-魅力-创造力-协调力-执行力-数据分析能力什么
2021-09-23 11:35:29 539
原创 7. CPU是如何由寄存器控制程序运行的?
1. CPU中的特殊功能寄存器1)PC寄存器(Program Counter Register):又称为指令地址寄存器(Instruction Address Register),用来存放下一条需要执行的计算机指令的内存地址。2)指令寄存器(Instruction Register):用来存放当前正在执行的指令。3)状态寄存器(Status Register):用来存放CPU算术或逻辑运算之后CPU状态(即标志位Flag)的寄存器,例如:是否有进位/借位、结果为零。其他特殊功能寄存器这里先不再赘述
2021-09-23 10:05:31 2297
原创 5. 计算机指令是如何被执行的?
1. 最早的数据存储介质——打孔卡与纸带IBM早在1928年就推出了规格为190x84mm的打孔卡(Punched Card),用长方形孔提高存储密度,通常可以存储80列x12行数据,相当于120字节。后来做成了穿孔纸带。打孔卡与穿孔纸带在很长一段时间内共存,是机械化存储技术时代的标志。这种存储介质我们一直在使用。“0”:表示光没有通过;“1”表示光通过了。为什么早期的计算机会采用打孔卡这样的存储设备,而不用像C或者Python这样的高级计算机语言编写呢?因为早期的计算机或者CPU没有理解这
2021-09-22 12:39:52 1107
原创 如何撰写好一篇论文?
Writing for Impact: How to Prepare a Journal ArticleAndrew M. Ibrahim, Institute for Healthcare Policy and Innovation, University of Michigan英文原文中文翻译
2021-09-19 08:49:52 147
原创 4. 功耗是如何影响计算机性能的?
计算机性能的提升源自公式:程序的CPU执行时间=指令数×CPI×时钟周期时间程序的CPU执行时间=指令数×CPI×时钟周期时间程序的CPU执行时间=指令数×CPI×时钟周期时间1.功耗问题的引出实例1:貌似要减少指令数,减小CPI比较困难,而减小时钟周期可行。于是,从 1978 年 Intel 发布的 8086 CPU 开始,计算机的主频从 5MHz 开始,不断提升。1980 年代中期的 80386 能够跑到 40MHz,1989 年的 486 能够跑到 100MHz,直到 2000 年的奔腾 4 处理
2021-09-16 08:53:48 3180 3
原创 3. 什么是计算机的性能?
“原来的电脑性能跟不上了”、“这个程序性能需要优化一下”。那什么是计算机的性能呢?学习和研究计算机组成原理,就是在理解计算机是怎么运作的,以及为什么要这么运作。“为什么”所要解决的事情,很多时候就是提升“性能”。1. 什么是性能?两个指标用来衡量计算机的标准响应时间(Response Time),也称执行时间(Execution Time)响应时间是指执行一个程序需要花费的时间。响应时间越小也就意味着花的时间越少,计算机的性能自然性能就越好。吞吐率(Throughput),也称带宽(Bandwi
2021-09-15 21:32:09 1706
原创 娃娃机吊到娃娃的概率
这里写自定义目录标题娃娃机的问题问题1:概率计算(由上至下)问题2:仿真(由下至上)娃娃机的问题某款娃娃机的设置如下:吊到娃娃的概率 :任意一次吊到的概率为0.6%;保底机制 :每90次抓取必定有一次可以吊到娃娃,即最多失败89次之后,必定在90次时可以吊到娃娃。如果可以无限次玩这款娃娃机,问:吊到娃娃的平均概率是多少?请用Python程序仿真实现。问题1:概率计算(由上至下)分析第1次吊到娃娃的概率(即条件概率):0.006;第2次吊到娃娃的概率(即条件概率):0.994(第1
2021-07-05 22:17:09 3826 2
原创 数据的离散趋势分析之EVSC——期望,方差,标准差,协方差,相关系数,变异系数
期望(Expectation)记做E(X),表示随机事件的平均预期。大数定律(Law of Large Numbers):如果随机事件的出现次数(即频数Frequency)趋向于无穷大,则E(X)收敛于算术平均数(Mean)。参考数学期望方差(Variance)记做σ^2 \sigma^2σ\sigma^2σ^2 \\sigma^{2}...
2021-06-07 11:51:34 2382
原创 建立模型
建立模型的流程建模前的准备(即数据预处理)缺失值处理a) 删除之:应用场景缺失值相对于总数据样本而言是非关键少数。b) 统计量填补:应用的统计量有均值、中位数、回归模型预测值。数据标准化例如:进行数据标准化的主要原因:a) 统一变量量纲。b) 同分布变量:标准化后的变量均值为0,标准差(即方差)为1。异常值排查近似概念:异常值、离群值、极端值。关键区分是 真实存在(重点分析之) 还是 明显错误(删除或者修正之)。模型的选择与建立有监督学习(简称:监督学习)也就是上图中
2021-05-12 07:50:20 1339
原创 将Excel通过Navicat导入MySQL时中文编码和日期的问题汇总
问题描述中文乱码导入时报[ERR] 1366的错误。如果中文字段是主键则会因为乱码导致不唯一报[ERR] 1062的错误在Excel中日期格式为“年/月/日”,使用Navicat V11导入时按照“YMD”格式会出现日期计算错误,出现结果都为“1900-01-01”这样的错误。但是,在Navicat V15上未见这个错误。问题解决MySQL中文编码的问题,可以参考《彻底解决mysql中文乱码》设置,建议设置为utf8。其实,不论是数据库连接,还是表格编码也建议设置为uft8。当然,只要在
2021-04-22 17:45:59 868
原创 数据预览
数据介绍与说明的内容数据来源给出具体的网址,例如:样本数据来自国家统计局官方网站(https://data.stats.gov.cn/)样本数量 与 每条观测含义例如:数据包含xxx个样本(每条为一个样本),每条观测代表…变量的个数 与 基本情况例如:数据集共包含xxx个变量,可以被归纳成为2组,一组代表xxx,另一 组代表xxx。输出形式:数据变量说明表数据描述输出形式:统计图、表和指标,如:箱线图、直方图、柱形图、折线图、散点图、饼图等作图步骤:1)明确数据的含义:类型、采集
2021-04-20 16:33:21 476
原创 数据的获取
公开的数据集国际货币基金组织(IMF)世界银行(World Bank)世界卫生组织(WHO)经济合作与发展组织(OECD)中国国家统计局UCI数据库天池Kaggle和鲸社区10.百度利用网络爬虫抓取数据网络爬虫(Web Crawler)用于搜索引擎:获得网页网址及对应内容,用来匹配用户搜索结果。用作数据获取工具:自动访问网页并记录网页对应的内容。网络爬虫需要面临运行时间长、失败率高、不可控因素多爬取网页的基本步骤a) 找到目标URL 或者 API数据源(例如:百度地图
2021-04-20 15:53:53 457
原创 KNIME数据预处理
问题的提出泰坦尼克号Titanic的故事众人皆知。我们拿到了泰坦尼克号上的乘客数据的一部分——训练集train.csv。数据描述这个数据集包含以下特征(Feature):PassengerId => 乘客编号;Survived => 获救情况(1为获救,0为未获救);Pclass => 乘客等级(1等舱位,2等舱位,3等舱位);Name => 姓名,字符串型(String);Sex => 性别(male,female),字符串型(String);Age =&
2021-04-14 08:14:14 7325 1
原创 KNIME网络爬虫
URLURL是Uniform Resource Locator的简称,是Internet上用于指定数据位置的表示方法。这些数据可以是图像、文件、视频、音频、超链接等。可以认为URL是数据在Internet上的存取路径,一个URL对应一个数据资源。例如:链家网的一个URL是https://sh.lianjia.com/ershoufang/107103462926.html,用浏览器的HTTP协议发送后从Internet上获得响应如图所示,也就是打开了网页。可以看到这个URL指向的是一个HTML文件。H
2021-04-07 07:17:27 3224 4
原创 KNIME正则表达式
正则表达式正则表达式(Regular Expression,简称regex、regexp或PE)用于描述一组字符串特征的表示式,用来匹配特定的字符串。它也是通过特殊字符和普通字符一起来进行表达式描述,从而达到文本匹配目的工具。它可以应用于文本编辑与处理、网页爬虫等场合,可以快速、准确地完成复杂的查找、替换等处理要求。正则表达式就是用来进行文本匹配的工具。例如像“0086-12345678901”或“0127-10987654321”这样的文本,所有的都是以0开头,后面跟着2-3个数字,然后是连字符“-”
2021-03-30 20:19:06 1011 1
原创 数据介绍与描述性分析——以NBA球员薪酬影响因素分析为例
引言本项目使用的数据抓取自虎扑篮球网站(https://m.hupu.com/nba/players/salaries),共397条, 每条数据代表一个NBA球员的相关信息。年薪是NBA球员的主要收入来源,也是本文的研究目标,所以视为因变量。自变量归纳为个人能力和发展前景。个人能力包括进攻能力(得台数+助攻数+前场篮板数)、 防守能力(抢断数+盖帽数+后场篮板数)、是否入选过全明星和场均时间等变量;发展前景包悟球龄、年龄、场上位置、球队胜率和球队市值等变量。因变量y:球员年薪本项目研究的是2016-
2021-03-24 08:03:18 6425 1
原创 KNIME工作流的建立实验
1. 实验相关知识1)安装完成KNIME。2)双击桌面上KNIME图标,启动KNIME。3)指定KNIME的工作区工作区是指本地磁盘上的一个目录,用于存储KNIME工作流、节点设置和工作流生成的数据等。4)KNIME分析平台用户界面(KNIME工作台)由菜单栏、快捷工具栏、KNIME Explorer(项目资源管理器)、Workflow Coach(社区推荐的工作流节点)、Node Repository(节点存储仓库)、Workflow Editor(工作流编辑区)、Node Descri
2021-03-10 09:14:22 4455 6
原创 商业大数据分析报告选题与背景撰写技巧
1. 选题1) 选题的思考流程(1)确定一个行业或领域根据自己背景,选择一个最有可能掌握的行业或领域,并聚焦这个行业或领域的一个明确的话题。(2)确定选定行业或领域中扮演的角色不同的角色会面临不同的环境,产生不同的问题。(3)明确一个具体的问题针对一个具体的、可度量的问题进行研究,问题越小越好!2)选题的注意事项(1)选题是否具体、可度量、小而精(2)选题所用的数据是否可以获得(3)选题是否可持续地研究和改进(4)选题是否有价值(5)选题是否有大量的文献资料可以阅读和学习2. 背
2021-03-03 22:36:08 3390 3
原创 KNIME安装指导
KNIME安装指导官方网址:KNIME Analytics Platform Installation GuideKNIME的安装KNIME 4.3的安装遵循“傻瓜”方式,一路Next即可成功安装。KNIME的扩展和集成包安装可以通过网络安装和本地安装两种方式。网络安装就是用向导安装,需要什么节点安装什么节点,受到网络速度的影响,但是包的更新比较及时。本地安装就是将全部的包(KNIME 4.3的扩展和集成包约5.5GB)下载到本地,由本地按需安装,推荐学校机房使用本地安装。...
2021-03-01 10:34:03 1458
原创 朴素的数据观
什么是数据数字、文本、声音、图像、社交链、车辆网数据具有强烈的时代特征数据的产生依赖一定的技术新型的数据还在不断产生中…问题:在可以预测的50年会有哪些新型数据?数据会带来哪些商业价值?商业价值三要素增加收入什么能够增加额外的收入?特别留意新兴市场,例如:交通拥堵保险。降低成本1)用机器代替人工,例如:机器播报新闻、呼叫中心的人工智能接入。2)产品寿命,例如:车窗马达的使用寿命由50万次降低为10万次 >> 节约上亿元。3)与产品设计,例如:电视机取消VGA接口
2021-01-24 20:34:31 180
原创 商业大数据研究选题
一. 餐饮行业:A菜品外卖对象:某家餐饮店是一家专营A菜品的外卖店(24小时营业)。业务:专注线上平台外卖,也有少量的线下堂食体验店。业务问题:1) 线下体验店如何选址2) 配送的菜品如何确定3) 如何体现自己的服务特色(营业时间、配送范围等)4) 消费者对A菜品的评价如何5) 这些问题的解决对该餐饮店选择菜品或提供服务有什么帮助提示:1) 确定餐饮店所在的有代表性的城市2) 数据来源:各类点评网站旅游行业:旅游产品的销量对象:旅游产品的定价业务:成本定价,毛利非常固定业务问题
2021-01-23 20:36:37 2667
原创 大数据时代“新装”
大数据时代与“皇帝的新装”风口:大数据时代的到来,大数据的4V特点 [Volume数据量、Variety形式多、Velocity速度快、Veracity真实性)主角:皇帝并不关心数据业务也不关注数据技术,只是想蹭“大数据”的时髦,以此炫耀,用大数据做他的“新衣服”可以挑选的大数据“新衣服”(范围由大到小依次):大数据>人工智能>数据挖掘>机器学习>深度学习骗子:大数据“砖家”错误的认为a) 统计分析:简单数据的简单分析b) 深度学习:复杂数据的复杂分析没说真话的大臣:
2020-12-30 21:48:29 278
原创 管理得到3
新发地疫情从何而来得到:成功 = 严密的思维 + 科学性理论依据 + 工程性事实证据 + 创新应用期待:由mir-128-1干扰降低糖尿病风险
2020-11-06 10:02:36 152
原创 管理得到2
军队里的“继承者们”是如何诞生的?得到:第一感觉是这样的基层人才(陆军营长Battalion Commander)选拔代价实在不小。联系到目前自己所处的行业人才选拔和晋升制度,完全是两个世界。然而仔细想想它有如下值得我们所有人借鉴的:直面难题并解决它。直面现实存在的人才选拔问题,通过严谨、甚至苛刻的制度和过程管理解决人才选拔、晋升的矛盾,突破了原有制度,打破了军队里的“阶层天花板”,让新人看到希望,让面试者了解自己。体现科学精神。真正让科学精神体现在人文、管理中,科学不只有Paper,还可以完全的继
2020-10-29 08:16:37 104
原创 管理得到1
1.安永为什么没能揭发明星公司的财务丑闻?得到:信息的纬度越多,越接近真相。做判断时,增加一个“利益相关”的商业角度视角。非审计收入:税务服务、法务服务、咨询服务。英国2024年要求审计公司将审计和非审计业务分离。安永在四大审计公司中科技类公司最多139家,其次普华永道106家。2. 人口结构,怎么影响哈萨克斯坦养猪业?得到:增加链接可以提升自己被需要的可能性。...
2020-10-28 08:43:33 115
原创 6. 数据的表示和编码
名词辨析真值、机器数编码BCD编码:ASCII编码:汉字编码:GB2312-1980(国家标准,简称国标码),GB18030-2000(最新的国家标准)。汉字按照用途分为:1)输入编码:输入时用,分为数字编码(区位码)、字音编码(搜狗拼音)、字形编码(五笔)、混合编码(郑码)四类。.2)汉字内码:计算机内部硬件处理。3)汉字字形码:输出设备显示使用。汉字的编码符合国家标准的汉字编码简称为国标码,国标码也是输入码,由2个字节组成,每个字节的最高位都是0。国标码=(区位码)16+202
2020-10-12 15:20:40 949
原创 2. 计算机到底是什么组成的?
1. 冯.诺依曼计算机工作原理a) 存储程序:将程序存放在计算机的存储器中。处理器CPU只能对存放在主存(即内存)中的程序或数据进行运算。问题:存储系统的构建?如何快速访问主存中的程序和数据?b) 程序控制:按照指令地址访问主存并取出指令,经译码依次产生执行指令所需的控制信号,实现对计算机系统的控制,完成指令的功能。问题:指令系统、控制器如何设计?...
2020-09-27 15:05:56 1239 2
原创 1. 开篇词:为什么要学习计算机组成原理
1. 为什么要学习计算机组成原理答:1)是专业核心基础课,在课程体系中起着承上启下的关键作用。2)移动互联时代发展的迫切需求:专业地位凸显关键词:大数据、云计算、物联网、移动互联举例:移动计算对信息处理终端在无线环境下的数据传输、数据处理和资源共享等应用提出了高效(资源占用少)、准确(可靠)、及时(响应执行速度快)等要求。需求:大量 “懂软件的硬件工程师”、“懂硬件的软件工程师”、“懂安全的数据分析师”3)我国信息产业发展的迫切需要现状:核心产业受制于人,如:集成电路(CPU)、操作系统、
2020-09-23 16:12:48 2625 3
原创 “数据分析”岗位分析
数据来源方式:爬取招聘网站“数据分析”相关职位数据位置:上海样本数:1223职位:数据分析(450)、数据运营(215)、数据挖掘(108)、算法工程师(450)1.公司融资情况行业内公司的融资情况从一定程度上说明了选择数据分析岗位的稳定性(占比情况是所有职位累加在一起,未区分职位)。不需要融资的公司占比60%,D轮以上的公司42%。其实很多不需要融资的公司,规模也是很大的,可以结合公司规模来判断公司的情况如何,是否值得去发展。2.公司规模分布提供数据类职位的公司,规模还算比较大的(50
2020-08-14 20:31:11 1887
原创 概念辨析: step, iteration, epoch, batchsize
引言step, iteration, epoch, batchsize, learning rate都是针对模型训练而言的,是模型训练中设置的超参数。样本step, 也称为iteration通常被译为迭代,每次迭代会更新模型的参数epoch通常被译为轮数,是指训练数据集中的所有样本(数据)输入模型被“轮”(即训练)的次数。为什么需要多个epoch?模型训练需要将训练集数据在模型中训...
2020-04-07 12:37:24 2656 1
原创 关于KNIME的JavaScript类型的节点在Excute执行时不启动的原因
问题描述:JavaScript类型的节点在Excute执行时不启动。例如:Stacked Area Chart节点中,在Excute执行后需要运行Intactive View: JavaScript Stacked Area Chart显示直方图时,会自动打开浏览器,就是不显示交互式面积图。原因:KNIME的JavaScript的默认设置错误。解决:菜单:File --> Pref...
2020-03-12 16:08:45 324
原创 机器学习中的参数和超参数
一. 模型参数(Parameters)模型内部的配置变量,例如:神经网络中的权重w和偏置b,SVM中的支持向量,线性回归或逻辑回归中的系数;使用数据进行估计(优化算法)或者学习得到;二. 模型超参数(Hyper-parameters)模型外部设置的变量,例如:神经网络中的学习速率、迭代次数、隐藏层层数、每层的神经元个数、,SVM中的C和sigma,k近邻中的k;由人直接设定或者搜...
2020-02-24 22:57:07 3901 1
原创 CentOS 7.5 FTP服务配置和报错修复
根据CentOS 7.5 FTP服务配置进行了FTP服务配置。然后使用FileZilla进行客户端连接,总是报错。解决方法:# vi /etc/pam.d/vsftpd 将其中的auth required pam_shells.so这行命令注释掉# systemctl restart vsftpd重新启动FTP服务原因:因为这里的pam_shells.so意味着...
2019-12-23 13:12:03 294
原创 SOP
什么是SOPSOP全称是Standard Operation Procedure,中文名字叫标准作业程序,就是将某一事件的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的工作。SOP的核心就是将细节进行量化,是对某一件事件的程序中的关键控制点进行细化和量化。例如:学生在撰写毕业论文的整个过程中,每一个阶段要完成什么细颗粒度的目标,要有明确的、可以量化的阶段性成果,以及这些成果递交的形...
2019-10-30 09:19:23 1196
原创 HBase的安装与配置
HBase的安装与配置HBase简介HBase的安装参考文献HBase简介HBase是一个开源、高可靠、高性能、可伸缩、面向列的、以键值对(Key/Value)形式存储数据的分布式数据库,具有高效的存储和简单的查询功能,主要用于存储非结构化和半结构化的松散数据,例如聊天纪录、图像等。它能够提供大数据集(超过10亿行数据和数百列元素的表格)的实时读取和随机访问。HBase源于 Fay Chang...
2019-10-24 16:27:42 358 1
原创 一段a米的绳子,随机切两刀,分成三段,求能够组合成一个三角形的概率?
根据题目意思有:0<a-x-y<a → x+y<a (1)0<x<a (2)0<y<a (3)其图示如下,程序:import matplotlib.pyplot as pltimport numpy as np# 绳子的长度为AA = 1# x1x1 = np.arange(A, 0, -0.01)# y1y1 = ...
2019-10-12 13:46:56 1414
原创 HDFS编程实践
HDFS编程实践实验环境在Windows上解压Hadoop 3Hadoop Linux服务器设置在Eclipse上安装Hadoop插件WordCount编程HDFS基础编程应用程序的部署实验环境编号项目软件及版本1操作系统Windows 7-64bit2Hadoophadoop-3.1.1.tar.gz3JDK10.0.14Eclipse...
2019-10-10 13:52:18 1892 5
原创 Windows远程桌面连接未安装界面的Ubuntu 18.04LST服务器
#安装xrdp$ sudo apt-get install xrdp安装vnc4server和tightvncserver$ sudo apt-get install vnc4server tightvncserve安装xubuntu-desktop$ sudo apt-get install xubuntu-desktop向xsession中写入xfce4-ses...
2019-09-23 18:35:22 482
原创 Hadoop 3.1安装与初步使用
查看操作系统版本$ sudo lsb_release -a一. 准备工作 (可选)1.1 添加教育网的镜像首先,对原来的/etc/apt/sources.list进行备份。$ sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup然后,用$ sudo vim /etc/apt/sources.list命令,将/etc/...
2019-09-23 16:57:16 2347 3
第七章-计算机系统总线
2020-12-23
第六章--中央控制器
2020-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人