自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 LightGBM 参数及调优

10 分钟 阅读作者 MJ Bahmani2022 年 1 月 25 日更新我已经使用lightGBM有一段时间了。对于大多数扁平数据问题,这是我的首选算法。它有很多突出特性,我建议你浏览一下。但我一直很想了解哪些参数对性能的影响最大,以及我应该如何调整 lightGBM 参数以充分利用它。我想我应该做一些研究,更多地了解 lightGBM 参数…并分享我的研究过程。具体来说我做了以下事项:深入研究LightGBM 的文档浏览 Laurae 文章Lauraepp:xgboost / L.

2022-03-09 19:48:36 2469 1

原创 scrapy+scrapyd+scrapydweb

installpip install scrapydpip install scrapydwebrunrun scrapyd firstscrapydthen scrapydwebscrapydwebvisit127.0.0.1:5000参考:Scrapyscrapydscrapydweb scrapy-selenium

2020-03-20 16:11:40 414

原创 zabbix

介绍企业级分布式开源监控解决方案架构功能组件:ServerZabbix server 是 Zabbix软件的核心组件,agent 向其报告可用性、系统完整性信息和统计信息。server也是存储所有配置信息、统计信息和操作信息的核心存储库。数据库所有配置信息以及 Zabbix 采集到的数据都被存储在数据库中。Web 界面为了从任何地方和任何平台轻松访问 Zabbix ,我们提供了基...

2020-03-12 16:25:44 226

原创 相关性算法BM25的python实现

计算原理第一项c(w,q)就是搜索q中词w的词频第三项是词w的逆文档频率,M是所有文本的个数,df(w)是出现词w的文本个数中间的第二项是关键,实质是词w的TF值的变换,c(w,d)是词w在文本d中的词频。首先是一个TF Transformation,目的是防止某个词的词频过大,经过下图中公式的约束,词频的上限为k+1,不会无限制的增长。例如,一个词在文本中的词频无论是50还是100,都...

2020-03-06 09:22:44 8567 1

翻译 Sphinx一分钟上手

1.安装sphinx2. make html3. 配置自动3.1 sys.path3.2

2019-11-30 09:23:45 292

转载 Pytest

pytest 使用 . 标识测试成功(PASSED)测试函数断言 assert捕获异常with pytest.raises(Error) as e: connect('localhost', '6379')查找测试策略默认情况下,pytest 会递归查找当前目录下所有以 test 开始或结尾的 Python 脚本,并执行文件内的所有以 test 开始或结束的函数和方法。标记测...

2019-11-20 17:25:30 173

原创 ELK

目的做日志存储和分析,主要用于监控用户使用是否有异常流程日志采集日志清洗异常指标计算可视化可选方案ELKSpark Streaming方式开发成本低高实时性差好部署维护成本低高计算平台越发稳定成熟,计算能力不再成为主要瓶颈。 多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的...

2019-11-20 17:14:17 101

转载 Linux设置命令行代理

Automate Proxy Server Settings In LinuxIf you use the same proxy server settings for the https, http and ftp traffic, you can use the following commands to set and unset the proxy settings:$ export ...

2019-11-19 15:52:29 1115

转载 RabbitMQ python

转自RabbitQM应用教程-Python版工作队列python pika循环调度默认来说,RabbitMQ会按顺序得把消息发送给每个消费者(consumer)。平均每个消费者都会收到同等数量得消息。这种发送消息得方式叫做——轮询(round-robin)消息确认为了防止消息丢失,RabbitMQ提供了消息响应(acknowledgments)。消费者会通过一个ack(响应),告诉R...

2019-08-30 10:51:29 136

原创 Mac Charles实现iphone app数据采集

1. 代理配置前提保证iphone和mac在同一局域网下1.1 找到mac ip地址系统偏好设置>网络中找到mac ip地址1.2 找到Charles 代理端口打开Proxy>Proxying settings...找到Charles代理端口1.3 配置iphone HTTP代理服务器为mac ip地址端口为Charles代理端口...

2019-08-08 17:52:06 570

原创 ModuleNotFoundError: No module named 'XXX'

python程序在命令行执行提示ModuleNotFoundError: No module named ‘XXX’ 解决方法查原因观察import sysprint(sys.path)调整到正确的路径import syssys.sys.path.append('.')print(sys.path)...

2019-06-22 15:59:46 472

转载 Multiprocessing Tutorial

转载自https://dzone.com/articles/python-201-a-multiprocessing-tutorial

2019-06-22 13:23:07 116

转载 Manually raising (throwing) an exception in Python

转自Manually raising (throwing) an exception in Pythondef demo_bad_catch(): # Avoid raising a generic Exception try: raise ValueError('Represents a hidden bug, do not catch this') ...

2019-06-05 15:58:52 120

原创 Python自动生成requirements.txt

通过freezepip freeze > requirements.txt缺点:pip freeze saves all packages in the environment including those that you don’t use in your current project. (if you don’t have virtualenv)pip freeze o...

2019-05-31 17:20:24 221

原创 如何设计一个秒杀系统-极客时间.许令波

干货很多,先做简单摘抄核心两问题并发读并发写整体架构应保证稳(高可用)准(一致性)快(高性能)架构原则(4要1不要)数据尽量少请求数尽量少路径尽量短依赖尽量少不要有单点关键问题动静分离热点数据(二八原则)流量削峰可用:降级、限流(客户端、服务端)、拒绝服务...

2019-05-20 10:54:28 2545

转载 Python 类属性,实例属性,私有属性与静态方法,类方法,实例方法

转载自Python:类属性,实例属性,私有属性与静态方法,类方法,实例方法实例属性和类属性1:实例属性:最好在__init__(self,…)中初始化内部调用时都需要加上self.外部调用时用instancename.propertyname2:类属性:在__init__()外初始化在内部用classname.类属性名调用外部既可以用classname.类属性名又可以用insta...

2019-05-14 11:23:22 137

转载 如何画好架构图

基本概念架构架构就是对系统中的实体以及实体之间的关系所进行的抽象描述,是一系列的决策。架构是结构和愿景。架构图为了抽象的表示软件系统的整体轮廓和各个组件之间的相互关系和约束边界,以及软件系统的物理部署和软件系统的演进方向的整体视图。架构图的作用要让干系人理解、遵循架构决策,就需要把架构信息传递出去:解决沟通障碍达成共识减少歧义架构图分类有一种比较流行的是4+1视图,分别...

2019-05-13 18:54:52 10887 2

转载 Python logging模块

转载自python中logging模块的一些简单用法日志级别import logging # 引入logging模块logging.basicConfig(level=logging.NOTSET) # 设置日志级别logging.debug(u"如果设置了日志级别为NOTSET,那么这里可以采取debug、info的级别的内容也可以显示在控制台上了")部分名词解释Logging...

2019-05-05 19:20:17 158

转载 Python函数参数

函数参数位置参数默认参数默认参数降低了函数调用的难度调用的时候,既可以按顺序提供默认参数,也可以不按顺序提供部分默认参数时,需要把参数名写上必选参数在前,默认参数在后定义默认参数要牢记一点:默认参数必须指向不变对象!可变参数定义可变参数和定义一个list或tuple参数相比,仅仅在参数前面加了一个号在list或tuple前面加一个号,把list或tuple的元素变成可变...

2019-04-28 10:53:17 77

原创 [吴恩达 机器学习]第十二章机器学习系统设计

93 确定执行的优先级问题:如何制定一个复杂的机器学习系统设计复杂机器学习系统时所涉及到的问题案例1 Building a spam classifier邮件的特征向量手动挑出单词根据词频挑出单词问题一:如何在有限的时间让分类器高精度低错误率收集更多的素材邮件的标题处理作特征邮件的正文处理作特征(例如感叹号,med1cine)94 误差分析问题:误差分析...

2019-04-24 18:32:52 174

原创 [吴恩达 机器学习]第十一章 应用机器学习的建议

83 决定下一步做什么做之前了解这样做是否有效(筛除无效的选项)Machine learning diagnostic84评估假设(训练集 测试集)取数据前最好打乱一下85 模型选择和训练、验证模型选择问题:数据集最合适的多项式次数如何选用正确的特征选择算法中的正则化参数lambda只有测试集无法考察泛化能力根据测试集的表现选择了模型(相当于测试集参与训练了),再用...

2019-04-24 18:32:06 112

原创 [吴恩达 机器学习]第十章 神经网络参数的反向传播算法

代价函数下图的谁他0没有参与正则化反向传播算法实例为了计算结果项采用前向传播算法?为了计算倒数项采用反向传播算法(右侧为向量表示)先用前向传播算法再用后向传播算法...

2019-04-24 18:30:27 204

原创 在Mac上使用Charles+Chrome

Charles>Proxy > Proxy Settings menu (this defaults to “8888”).System Preferences > Network > Advanced > Proxies.主机地址改成127.0.0.1,端口号要和第一步中的端口号一致参考:Using Charles Proxy with Google ...

2019-04-23 11:09:19 3729

原创 Selenium

安装pip install -U seleniumDriversChrome: https://sites.google.com/a/chromium.org/chromedriver/downloadsEdge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/Firefox: https://...

2019-04-19 15:58:17 149

原创 ip代理

流程:爬取多页HTTPS代理ip挨个校验后返回可用ip实现:# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import ProxyErrorfrom selenium import webdriverdef is_work(ip): proxy_dict = { 'http...

2019-04-18 16:12:42 134

原创 Supervisor

安装pip install supervisor创建配置文件 echo_supervisord_conf > /etc/supervisord.conf 按照配置文件启动supervisord -c /etc/supervisord.conf配置自动启动systemctl enable supervisord.service参考:https://segmentfau...

2019-04-18 10:22:13 151

原创 Python函数式编程

高阶函数map/reducemap>>> def f(x):... return x * x...>>> r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])>>> list(r)[1, 4, 9, 16, 25, 36, 49, 64, 81]>>> list(map(st...

2019-04-17 14:05:01 87

原创 BeautifulSoup

安装pip install beautifulsoup4使用示例html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's stor...

2019-04-08 16:23:04 106

原创 神经网络

神经元模型神经网络(neural networks):“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”[Kohonen, 1988]神经网络中最基本的成分:神经元(neurol)模型,即上述定义中的“简单单元” .M-P 神经元模型:在这个模型 中 , 神经元接收到来自n个其他神经元传递过来的输入信号?这些输入信号通过...

2019-04-06 22:16:28 501

原创 Linux磁盘管理

文件夹df列出文件系统的整体磁盘使用量df [-ahikHTm] [目录或文件名]选项与参数:-a :列出所有的文件系统,包括系统特有的 /proc 等文件系统;-k :以 KBytes 的容量显示各文件系统;-m :以 MBytes 的容量显示各文件系统;-h :以人们较易阅读的 GBytes, MBytes, KBytes 等格式自行显示;-H :以 M=1000K 取代...

2019-04-04 17:45:24 94

原创 gRPC

安装安装gRPCpip install grpcio安装gRPC toolspip install grpcio-tools下载样例# Clone the repository to get the example code:git clone -b v1.19.0 https://github.com/grpc/grpc# Navigate to the "hello, wo...

2019-04-04 15:39:39 246

原创 Logistic回归

回归:对数据点拟合的过程利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类一般过程:(1)收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。(4)训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(...

2019-03-29 16:57:56 188

原创 朴素贝叶斯

朴素贝叶斯概述:优点:数据较少的情况下仍然有效,可以处理多类别问题缺点: 对于输入数据的准备方式较敏感适用数据类型:标称型数据贝叶斯决策理论核心选择具有最高概率的决策条件概率条件概率的计算公式如下所示:P ( g r a y |bucketB) = p (gray a n d b u c k e t B ) / P ( b u c k e t B )另一个有效计算条件概率的...

2019-03-29 15:33:53 162

原创 Python代码重构

一、质量保证(Quality Assurance)flake8CodecovPylint二、重构原则

2019-03-29 15:23:19 2329

原创 ELK安装说明

Docker请参看[文档] (http://www.runoob.com/docker/centos-docker-install.html)安装注意:版本号大于 1.13.0Elasticsearch请参看[文档] https://www.elastic.co/guide/en/elasticsearch/reference/6.0/docker.html安装注意:6.0....

2018-12-13 10:38:08 109

原创 HanLP

一. 下载与配置(使用python可跳过)下载jar和配置文件下载data.zip解压并通过配置文件告诉HanLP数据包的位置(方法:修改配置文件的第一行为数据包的父目录)。HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。模型跟词典没有绝对的区别,隐马模型被做成人人...

2018-12-07 12:17:56 3143

原创 phasorhand 解决mongod.exe启动时提示0X000007

dll错误。使用修复工具DirectXRepair35修复即可

2017-03-17 15:48:23 348

原创 python can't decode byte

新建文件C:\Python27\Lib\site-packages\sitecustomize.py,代码如下# encoding=utf8import sysreload(sys)sys.setdefaultencoding('gb2312')

2017-03-17 14:02:43 232

转载 Python 编码规范pep8

深入学习Python遵循一套编码规范是十分必要的。所以今天下午我根据PEP 8整理了一份,以后都照此编码了,还会持续更新。PEP8 Python 编码规范一 代码编排1 缩进。4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格。2 每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。3 类和top-level函数定义之间空两...

2016-11-08 00:14:15 327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除