自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(331)
  • 收藏
  • 关注

原创 1.1 很多事情的高效的方法来自于:明确的目标和明确的要求

可以用程序方式来扫描每一个文件的全路径,然后对目录进行分组,看看哪个路径下的文件数量多,总大小大,然后优先针对这个进行挑选目录;这就是面对大且繁杂的场景兼顾提高效率和准确性的方法:提升面对的样本的粒度(到组或者类别粒度),然后抽样确定(样本估计整体);也就是按照目录粒度来挑选(靠谱的标准是从目录中随机抽几个看看,或者人工大眼一看就基本知道是不是小说场景相关的了);1.1 很多事情的高效的方法来自于:明确的目标和明确的要求。注:这里的明确的目标就是:找出小说场景的电子书;

2024-12-02 16:33:50 215

原创 1.1 分析问题:问题分解(拆解)和分而治之

问题:一个爬虫,抓取一个网站上用户主页下的文章列表,在23号抓取的文章量变少,导致25号抓取的文章量变少(25号用到的是23号的种子URL去抓取文章的);这里也可以看下每日每个用户能抓取到该用户文章的量的方差,这也能分析出该日单个用户的抓取文章量是否有特别大的方差,特别是少的特别少导致的;第一次拆解:23号的量,是两个方面决定的,一个是用户量(要抓的用户主页数量),一个是单个用户量抓取的文章量(用户主页下面的文章量);这个就是问题组成部分的拆解,也是逻辑的拆解;也伴随着分层拆解和粒度拆解,也是规模的拆解;

2024-11-29 11:39:41 315

原创 如何组织python的代码?

在 Python 中,接口的概念并不像某些其他编程语言(如 Java 或 C#)那样明确,但你可以通过抽象基类(Abstract Base Classes, ABCs)来模拟接口的行为;go的函数可以属于一个结构体,也可以不属于结构体而独立存在;而go的结构体和Java的类一样,但是go的结构体靠组合发挥与Java的类继承一样的功能;有了接口就可以面向接口编程,那么就可以把调度(对象)性质的代码抽象成一个框架;类(类里面都是静态函数)+独立于类的函数组成一个py文件;而python的继承像Java的继承;

2024-11-21 15:54:06 238

原创 1.1 爬虫的一些知识(大模型提供语料)

请求反爬:返回403等,或者跳转或者返回到一个人工校验页面;# 抓取入口(穷举或者探索方式)响应请求的文档类型:html,js,json。1.1 爬虫的一些知识(大模型提供语料)资源组织方式:列表分页,搜索引擎,推荐。内容反爬:抓取内容投毒、混淆等反抓取;发送请求的文档类型:html ,js。一个是擅长筛选器,一个擅长路径定位;抓取流程:requests直接请求。资源覆盖率:穷举所有要抓取的资源;增量抓取:如何保证更新能跟上;页面形式:单页面,非单页面;重量级:selenium。解析:bs4和xpath。

2024-11-20 18:29:39 1140

原创 1.1 如何优化程序性能:cpu和内存的占用上;

比如innodb_buffer_pool_size(前提机器还有很多内存,而当前没有占用非常小的情况)当然,网络程序还需要优化与网络相关的,比如IO loop方式,带宽占用等;比如,mysql插入性能低,那么一般的通用有效的做法会是:调大内存占用,这两个思路是殊途同归,都是程序和资源要匹配好,才能返回最大性能;1.1 如何优化程序性能:cpu和内存的占用上;总之,在不打爆机器的情况下,不让程序等资源;这是两个最大的本地优化策略;写的程序要尽可能榨取资源;调整前后,效果非常明显;

2024-11-19 17:26:42 281

原创 1.1 抽样与有偏问题

比如,如果你从整体中抽样,发现不存在这个问题,那么就可以说整体上是没有问题的(但是不能说某个类别没问题,如果你关注整体效果,你可以这么抽样);但是这样从整体中随机抽样可能是有偏的,比如某个类别非常少,而真正的使用方式是每个类别都可能会被抽到去人工评测,那么这样你从整体随机抽样,注:抽样偏不偏,要看实际情况是如何用的,要和实际场景保持一致,才能保证抽样不偏;如果抽样做的事情有偏的,那么就会影响到结论;就有问题了,这和实际用法不一致,是有偏的;1.1 抽样与有偏问题。

2024-11-05 17:46:01 313

原创 1.1 要学会归类和找特征:天然的类别和特征:长短,多少,大小等

比如,这个case的数据内容长,哪些case的数据内容短,那么这就可以归类成长度;那么长短就是一个特征维度;1.1 要学会归类和找特征:天然的类别和特征:长短,多少,大小等。所以,要学会从天然特征角度着手;注:归类:就是人工聚类的过程。

2024-11-05 09:20:47 214

原创 1.1 解决具体case的思路

如果你不关注这个来源和经过什么处理路径和流程,只是发现这个case并且锁定这个case所属的类别都有这样的问题,那么还是局限的,注:这样才能更好的对问题有更高层次的认知,否则会陷入这个问题或者这类问题而无法认识到更高层次的可能潜在问题。比如,通过某种处理行为,引入了一类数据的问题,那么这个处理覆盖的其他类的数据是否也影响到了呢;先分析bad case身世:来源是哪,经过什么处理路径和流程?因为和这类数据同样经过那种处理的数据呢,是否也要看下呢;分析这些bad case,找规律,设计思路。

2024-11-01 10:08:43 255

原创 1.1 如何做策略:先疑似(区分,然后粗召回),然后再调精度

可行性调研:这个过程不仅仅可以知道是否行得通,还能帮助你启发如何去实现;1.1 如何做策略:先疑似(区分,然后粗召回),然后再调精度。策略都是从疑似,然后不断优化和精确的过程;最后看准召,再做选择(偏召回还是精确);

2024-10-31 20:48:42 109

原创 1.1 如何能够对事情更深刻:停下来投入时间

拿捏好这两个方面,关注好这两个方面,在上面花费时间和精力,就一定能做到对事情更深刻。1.1 如何能够对事情更深刻:停下来投入时间。其实就是关注两件事:问题情况如何,效果如何;

2024-10-31 16:03:21 279

原创 1.1 提问题

更要学会提出问题后自己先初步思考和分析下,最基本的思考和分析都没有,这就是一种提问题的懒惰的表现;因为初步思考和分析也是提问题的范围内的事情:可以帮助你更好认识和理解问题;要提问题,要学会提问题。

2024-10-31 15:21:02 352

原创 1.1 低级错误

d.发现了问题没有思考和分析,就下结论或者说不能做或者说做不到。a.不是问题错误认为是问题:不合理的操作或者看到了假象。c.用错误或者低效或者费劲的方法解决了不是问题的问题;b.没有发现低级问题。

2024-10-30 14:10:52 106

原创 1.1 认识事物:要从整体结构和层次着手开始

所以,一定要记住这个事情:从整体结构和层次着手来开始认识陌生的事物;因为一切人搞出来的输出或者世间能被人来认识的事物,1.1 认识事物:要从整体结构和层次着手开始。都符合整体有结构和有层次的;否则没有什么人类知识了。

2024-10-28 16:23:50 112

原创 1.1 如何聚焦和踏实:细化粒度;找不准粒度做事会抓不住重点和细节

比如,评价一个试卷有没有问题,可以看每个题是不是有问题;所以试卷中的题目才是我们分析的粒度;1.1 如何聚焦和踏实:细化粒度;找不准粒度做事会抓不住重点和细节。注:如果你没有确定粒度,就先确定这个,否则不要开展工作。否则,大眼一眼时试卷很难发现不是明显的问题的;而人能感触到的是合理和合适的粒度;因为,具象是踏实的表现;

2024-10-28 15:55:03 146

原创 1.1 遇事不决:就用准召思维和统计学

比如,一个数据要不要,那么就要看哪些数据是确定要的,对于不确定的数据,根据准召来判断和选择(是要准,还是要召,还是都要),最后可以抽样取一部分(统计学的抽样技术,甚至是分层抽样等或者用统计或者基于统计的机器学习进一步筛一波);注:统计解决的问题的最优解得不到时可以得到次优解的问题;不确定性的要用到准召来判断和选择,然后用统计学来解决;问题有两种:确定性和不确定性的,确定性的比较好解决;1.1 遇事不决:就用准召和统计学。没有这两个解决不了的问题;

2024-10-25 14:40:19 131

原创 1.1 如何理解和解决复杂问题:控制其他变量,保持一个变量在变,然后一次分析一个变量

只有预测会变,那么将样本多预测为1,那么11的组合就会变多,那么11作为变化的量,那么11/(11+10)=召回率会变大,毕竟11比11+10变大的快(10是不变的);比如,准召的理解:准召就是一个混淆矩阵,就是一个表格;但是,01也会变多,那么11/(01+11)=精确率会变小,因为11没有01+11变的快(01和11都变多了);那么如何理解准召,假设一次预测过程中,样本总量是固定的,真实值是固定的;所以,其他数学或者逻辑的问题,都要控制其他变量,一次分析一个变量或者尽可能少的变量;

2024-10-23 09:57:59 403

原创 如何写技术类的设计文档

写原理性的写法:先写问题,难点,然后写最初的方案雏形,以及一步步如何达到当前情况或者最优方案的。写成果性的写法:先总写,写成绩,写成果,写亮点,然后展开具体措施;不同的写法,不同的受众,不同的场景。如何写技术类的设计文档。

2024-09-06 10:24:36 185

原创 解决问题的本质:找到一种规律,能收敛问题甚至高效收敛问题的规律

2.方法可行,就收集数据(一个数据使用起来不方便的分析过程是低效的,所以,做好准备足够多和足够代表性的数据很重要:先磨刀);tips:解决问题的两个思路:不断细化然后针对性解决;还有一个就是调整核心思路用其他方法;5.另外,找到规律(或者问题),要发展和扩大规律应用,这样才能最大化规律的收益;解决问题的本质:找到一种规律,能收敛问题甚至高效收敛问题的规律。3.从可行的方法上面根据收集的数据找规律;4.收敛一部分问题,继续迭代;

2024-09-03 11:52:23 175

原创 1.1 做任何事情都先整体再局部:认识整体,才能把控整体

比如:当一个事情占用太多时间还是搞不定时,就可以对外求助或者换方案,而不至于陷入进去,而导致整体没有推进。比如,一个事情要开干,先梳理下要包括哪些方面,列个todo ,排个序列个优先级和依赖顺序,注:不能认识整体,就无法把控整体。就会越做心里越没底。1.1 什么事情先整体再局部:认识整体,才能把控整体。这样,就能很好管理事情。

2024-08-19 20:22:15 288

原创 做事策略: 推进靠流程,执行要关注细节

一个事情能够很好推进,靠的是流程的理解,但是在具体执行流程中某个节点的具体事情上,要对细节进行很好的关注和处理;只有两者兼顾才能做成事情,做好事情。1.1做事策略: 推进靠流程,执行要关注细节;

2024-08-17 17:57:24 111

原创 分析能力:逐层分类和归类能力

1.环境问题,比如环境版本或者具体到某个库的版本与该语言的版本不匹配问题;所以,碰到问题先从大类上归类,然后逐步定位和分析解决即可。3.数据导致的自己的代码运行有问题(兼容和健壮性不够好)注:如果不会逐层归类,那么分析会混乱和低效。1.1 分析能力:逐层分类和归类能力。2.自己代码的问题;总之就这个三个大面。

2024-08-17 17:55:30 124

原创 项目设计策略

比如,一个项目不知道怎么设计,那么先打通流程,然后再去完善。这样的步骤,比一直在哪里冥想去设计,然后在按部就班去开发要好;因为,没有事情可以靠想就能想明白的,要知行合一和穿插。小做是为了更好的大想;这和王阳明的知行合一:不要一直想,要在想中做,做中想;有一种设计叫做:先去小做,然后在做中去设计。

2024-08-17 17:47:19 138

原创 不用c和c++,那么要不要去阅读这两种语言优秀的的源码呢?

不用c和c++,那么要不要去阅读这两种语言优秀的的源码呢? 由于这两种非常底层,对于了解一些底层的原理非常有帮助; 而且,高级语言比如,Java都是增加了更多的抽象层,而底层差不多都是一样的, 因此,当我们使用Java的时候,可能不知道底层是怎么运行的,如果能经常阅读一些优秀的底层语言比如c的优秀代码,对于我们使用Java也是非常有帮助的; 就像我们读一些名著并不是为了成为一个牛逼的作家一...

2018-09-07 12:24:23 446

原创 如何估算线程池个数

关键词 CPU_WAIT_IO(等待IOCPU时间比率); cpu运行时间,cpu等待时间; 公式:最佳线程数目 = ((线程等待时间+线程CPU时间)/线程CPU时间 )* CPU数目;在同一个进程里面,启动两个线程池,一个执行调用A服务,另外一个执行调用B服务,都是网络调用; 假设机器是10核数,A线程池最大为10,B也是最大为10;调用A服务阻塞,那么调用B服务是不是也会受到...

2018-09-05 20:04:43 986

原创 修改一处代码,都要通篇进行review

在一个方法中,增加一行代码,觉得没问题吗?原则:修改一处代码,都要通篇进行review; 重点看下修改的代码对原有代码的影响是什么?新增的代码是干啥的?对流程有什么影响; 对逻辑有什么影响?例子:在一个执行过滤功能的方法中,新增一个过滤代码。 可能造成的影响以及review的重点是:该行代码放的位置对吗?是放在哪个过滤前,还是哪个过滤后,还是放到哪些过滤之间?...

2018-03-07 18:45:45 2016

原创 jquery能做什么

jquery选择器 jquery事件 jquery效果(比如隐藏,显示等等) jquery文档操作,属性操作,css操作 jquery遍历 jquery ajax jqueryDOM元素参考:http://www.w3school.com.cn/jquery/index.asp...

2018-03-07 13:43:36 780

原创 如何高效review代码

如何高效review代码:对改动的地方多问一个为什么?多问业务是什么?多问为什么这么做?多问,多思考还有其他的实现方法吗?总之,让你的注意力集中并在思考。...

2018-03-01 14:42:11 916

原创 从问题出发

有时,对于所开发的东西不清楚,或者杂乱无章, 我们可以去做,然后测试,定位问题,诊断问题,解决问题。 这个过程中,我们会慢慢成长。对所做的事情会越来越清晰。 这就是从问题出发。 并不是所有的事情都是完全规划好了,搞清楚了才能进行。换种思路,也许就海阔天空。...

2018-02-28 13:09:36 653

原创 表达能力

在平时的工作或者生活中,你会在意或者注意你的表达方式吗?你觉得你的话别人能很好的理解吗?你能准确表达自己的意思吗? 特别当你遇到问题时,向别人寻求帮助时,你连自己的困难都讲不清楚,别人怎么帮你,特别是做为一个开发者,必须要会表达,善于表达。很多人都沉浸在自嗨中,因此很多人的表达对于受众来讲,都是会碰到疑惑,更加疑惑,甚至抵触的情况。要知道,人都是力争想要明白的,你给他表达你的意思,反而让其糊...

2018-02-27 20:56:29 1206

原创 抽象(归纳)能力的重要性

在一个项目中,很多功能是相似的,那么如何把相似的功能抽象出来,并通过一定的技术手段来实现,那么久可以减少代码量并增强代码可维护性。 注意:不能过度抽象,不能滥用抽象。比如切面思想就是一个把相似功能进行抽象而得出的精华思想; 我们要做的就是分清楚哪些可以归到一个切面里面。...

2018-02-26 17:48:27 1745

原创 ERP管理系统(后台系统)中javaweb-分页组件

后端采用的技术: SpringMVC PageHelper 核心点: ThreadLocal、拦截器前端采用的技术: http://www.jeasyui.com/documentation/datagrid.php

2018-02-26 17:20:53 2380

原创 软件开发技巧和陋习

凑合 在日常开发中,使用或者测试中出现问题,一般都喜欢打补丁,补丁这个概念被用错了。补丁不是凑合。补丁不是简单粗暴,毫无业务逻辑性的凑合。 如果为了修复一个问题,而让你的代码变得不能体现或者表达它的业务含义或者污染了现有的代码逻辑,那么这个修复就埋下了一个日后潜在的更大的问题。 为了清晰性,为了功能的单一性,为了以后的可维护性,代码不能凑合。 陋习举例:比如业务调整,需要调用端新传入一个参...

2018-02-26 10:21:54 375

原创 读《实现领域驱动设计》个人心得

贫血领域对象:方法不单一,方法的名字不能传达方法的含义,并且方法体的实现也不具有单一性,也不能体现方法的功能。说白了,方法不能体现业务。好的代码就是能表达业务的代码。 贫血领域对象会随着时间推移,会让人搞不清楚它最初的含义和功能是什么,即让人搞不清楚它要实现什么样的业务场景或者用例流。领域驱动设计的领域对象应该有它应该具有的行为,千万不能因为降低代码量或者为了凑合而把复用特性用烂、用错。该是...

2018-02-24 18:06:41 1670

原创 核心的东西你自己需要搞明白

如果你做一个行业,核心的知识你必须需要搞明白。 核心的搞明白了,你就称职,不然,你做再久,还是原地踏步,无实质上的进步。比如,你如果搞金融的,那么钱就需要搞明白。每种贷款怎么算的,每个贷款方式是什么样子的公式。比如,你要是搞电商的,那么就需要搞懂供应链,搞懂渠道。往往,会存在不去面对难的东西,而是避难就易。...

2018-02-22 11:15:40 394

原创 金融贷款

首付 贷款 月供(等额本息(公式)、等额本金(公式)) 等额本息适用于收入低无存款,每月还款额一样。而等额本金适合收入高,有存款,总共还的利息少。尾款 其他费用...

2018-02-22 11:10:06 491

原创 比较:是为了更好的理解它的特性

我们学习一个东西时,如果能够找到和它对标的一个东西来对比着理解和学习, 那么,很有助于你的记忆和理解。对比是常用的一种深化记忆和理解的工具。比如,如果你之前通过并了解MySQL, 那么当你学习hbase的,你可以试着这样学习: hbase和mysql有什么不同,既然有mysql,为什么还会出现hbase hbase比mysql的优势体现是什么?...

2018-02-09 16:15:52 366

原创 如何保持强目标性的问题

作为一个技术宅, 都往往会不经意推崇一个技术(工具),而对工具所能解决的问题,对其所能使用的场景不清楚。 这就是为了学而学。学一个东西前,调研它,首先搞清楚它能做什么,它是否能为你所用。 不要被“别人说牛逼”蒙蔽双眼和思考。做任何事,都要不要忘了目标,忘了你的初衷。要在做事时,时刻反省,发现自己目的模糊就要立刻认识并强化。...

2018-02-09 10:32:33 392

原创 怎么能够认清一个开源组件的功能

怎么才能够认清一个开源组件的功能? 如果你能够说出或者描述出它的一个用途,或者使用场景,那么说明你对它的认识就比较深刻和准确? 比如,你知道storm是干什么用的吗?你的什么业务能够使用它呢?哪怕牵强点的使用也算。...

2018-02-09 08:40:51 639

原创 怎么算入行

入行难,难在入行就代表你熟悉这个领域,对这个领域的一切别人看不出什么的地方,你能够看出规律和特性。比如,你如果熟悉分期购车的业务,那么你知道分期购的分期方案一般都是多少首付和比例吗? 比如,你如果房地产业务,那么你知道什么样的房子可以买?...

2018-02-08 11:27:55 391

原创 潜意识

一万张从1到一万的卡片,打散后,从中找出数字是10的卡片,你会怎么找?同样一万张从1到一万的卡片,找出指定的1000张,你会怎么找?第一种情况,一般情况下,都会随机找(存在侥幸心理) 第二种情况下,人们会强烈的意识到要排好序,然后找比较划算(心中强烈需要规律和规则)。第二种情况就引出了排序,还有就是数据量更多情况下如何更好实现排序?人都喜欢有规则的东西,有了规律就容易处理。计算机...

2018-02-08 10:35:26 576

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除