小项目
文章平均质量分 89
python爬虫、数据分析、机器学习小应用
偲偲粑
这个作者很懒,什么都没留下…
展开
-
使用Docker进行模型部署
文章目录1、思路2、实现步骤2.1 数据、模型准备2.2 镜像制作2.3 使用1、思路因为多数公司正式集群都不能使用公网环境,对于模型部署比较麻烦。所以想这在公网环境下完成模型调试,然后根据相关环境和参数直接制作一个docker镜像,部署到内网集群。2、实现步骤2.1 数据、模型准备假设已经有一个模型文件,主函数predict,只要将 train_df, test_df传入即可得到结果。首先,传输时候要转换成json,另外要将数据类型传输过来。# 数据类型转换为dicttest_df_dty原创 2020-08-27 18:35:06 · 1331 阅读 · 0 评论 -
反爬2:滑块验证码(python,无原图)
滑块验证码也是常见反爬手段,而且网上介绍文章也不少,但是多数都是能够获取到原图和有缺口的图,然后做点对点的对比获得缺口位置,这里主要是怎么处理没有原图。2、解决思路1、虽然他们没有原图,但是它的缺口位置有白边,所以每一个点对他右侧和下侧各26个像素求和,然后这些像素往右下移动一个像素再求和,达原创 2020-08-19 18:07:36 · 1112 阅读 · 0 评论 -
反爬1:字体文件混淆反爬破解(python)
字体文件混淆是常见反爬手段,我这里指的是使用1份或多份网站自定义字体(通常是woff),导致爬下来的字符编码不能解析,即所见非所得。解决思路1、首先,不会有一个网站会真的自己设计一种字体(如果有可以手打对照表),一般都是将现有的字体进行位置调换形成一份新的字体。所以,第一步就是要找到这份字体的源字体。2、找到源字体之后,将其解析出来字的点坐标。将点坐标和对应的文字原创 2020-08-19 18:05:30 · 861 阅读 · 0 评论 -
face_recognition安装使用
1、安装首先更换了清华源,然后安装,安装总是出错CMake must be installed to build the following extensions: dlib解决方法$ sudo pip install cmake$ sudo pip install face_recognition2、使用...原创 2020-02-25 21:54:25 · 355 阅读 · 0 评论 -
目标检测汇总
文章目录1、神经网络基础2、卷积神经网络2.1、术语及历史2.2、CNN2.3、CNN改进3、目标检测1、神经网络基础以下为CS229视频课程部分笔记,可参考文章内的讲义。数据挖掘day26、27-CS229-WEEK4 Neural Networks:Representtation数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning2、卷积...原创 2020-02-06 20:52:25 · 181 阅读 · 0 评论 -
百家号总量分析及养号建议
本文是数据分析学习的时候采集百家号数据做的一份报告,当时水平有限,仅供参考。原创 2020-01-20 09:46:24 · 605 阅读 · 0 评论 -
员工离职率预测,练手赛
文章目录1、数据探索1.1 各特征总量及百分比1.2 heatmap2、特征选择&处理2.1 特征分类2.2 连续特征选择2.3 分类特征选择2.4 异常值处理2.5 连续特征处理2.5.1 分箱测试2.6 拼接特征,然后再筛选3、建立模型3.1、LR3.1.1 尝试修改LR模型阀值3.1.2 尝试下采样,堆叠LR3.2 XGBoost3.3 GBC3.4 SGD该比赛为DC练习赛,要求...原创 2020-01-20 09:38:21 · 2316 阅读 · 1 评论 -
百家号爬虫(获取各领域创作者appid)
百家号爬虫(获取各领域创作者appid)由于百度的限制,每个领域最多能获取760个id#!/usr/bin/env python3# -*- coding: utf-8 -*-from urllib.parse import quotefrom urllib import requestfrom bs4 import BeautifulSoupfrom urllib import...原创 2019-10-10 11:22:50 · 2079 阅读 · 0 评论