自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 从sklearn说机器学习

SKlearn简介scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。SKlearn官网:scikit-learn: machine learning in Python在工程应用中,用python手写代码来从头实现一个算法的可能性非常低,这样不仅耗时耗力,还不一定能够写出构架清晰,稳定性强的模型。更多情况下,是分析采

2022-03-23 11:56:06 2683

原创 python--查询PG数据库

1、连接到PostgreSQL数据库并查询数据首先引用psycopg2模块:import psycopg2然后就可以通过如下方式连接到PostgreSQL数据库并执行查询数据的SQL语句:# database,user,password,host,port分别对应要连接的PostgreSQL数据库的数据库名、数据库用户名、用户密码、主机、端口信息,请根据具体情况自行修改conn = psycopg2.connect(database="test",user="postgres",pas

2022-03-23 11:50:39 5081

原创 python --数据分析常用

参考网址:Python3 pandas用法大全 - 整合侠 - 博客园pandas数据分析总结大全(入门加进阶) - 知乎[译]Pandas常用命令对照清单 - 简书import numpy as npimport pandas as pdimport csvimport xlrdpd.set_option('display.max_columns', None)# 读写文件data=pd.DataFrame(pd.read_csv('D:/****.csv',engine..

2022-03-23 11:45:19 677

原创 python 、linux下操作sqlite3数据库

查看版本 sqlite3 -version打开或创建数据库 sqlite3 test.db查看数据库信息 sqlite>.database 查看所有表 sqlite>.table 查看所有表的创建语句: sqlite>.schema 查看某个表的创建语句: sqlite>.schema table_name 最重要的一个命令,执行sql语句(必须以分号结尾,不加分号就敲回车则是分行) sqlite>select * from table_name; 退出SQLite s

2022-03-23 11:37:52 2861

原创 Linux 知识总结

用户管理一个用户至少属于一个组 /home/添加用户:useradd [] 用户名切换目录:cd 创建目录:mkdir 创建文件:touch 修改密码:passwd XX删除用户:只删除用户名称: userdel XX既删除用户名称也删除用户组:userdel -r XX查询用户信息:id XX切换用户: su -XX返回原用户: exit查看当前用户: who am I用户组:增加用户组: groupadd删除用户组: ...

2022-03-23 11:35:34 2266

原创 文件读写-csv

前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列.特点 读取出的数据一般为字符类型,如果是数字需要人为转换为数字 以行为单

2022-03-23 11:22:16 2207

原创 Python编码规范

1、注意事项(1)文档仅适用于基于Python主要发行版本的标准库。(2)文档中的约定应基于现实考虑灵活处理,根据自身需求和团队其他成员的阅读习惯做适当调整。(3)若遵循文档中的规范使得代码可读性更差,或者因不符合个人习惯会造成代码错误,应适当采用。(4)已完成的代码未很好的遵循文档规范,不建议重新修改。2、代码布局2.1、Indentation 缩进 每一级缩进使用4个空格。 续行应该与其包裹元素对齐,要么使用圆括号、方括号和花括号内的隐式行连接来垂直对齐,要么使用

2022-03-23 11:19:14 3316

原创 git知识分享

Git&GitHub知识分享前言1.1什么是版本控制版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。优点:协同修改多人并行不悖的修改服务器端的同一个文件。数据备份不仅保存目录和文件的当前状态,还能够保存每一个提交过的历史状态。版本管理在保存每一个版本的文件信息的时候要做到不保存重复数据,以节约存储空间,提高运行效率。这方面 SVN 采用的是增量

2022-03-23 11:17:02 781

原创 docker 概述

Dockerfile概述 Dockerfile是docker中镜像文件的的描述文件,说的直白点就是镜像文件到底是由什么东西一步步构成的。  例如:你在淘宝上买了一个衣架,但是卖家并没有给你发一个完整的衣架,而是一些组件和一张图纸,你按照这个图纸一步一步将衣架组装起来,就成了你所需要的样子。那么 Dockerfile 就是这张图纸,镜像文件就是你需要的这个衣架,Dockerfile 不建议随便命名,就用 Dockerfile。  因此,Dockerfile其内部包含了一条条的指令,每一条指令构建一层,因

2022-03-22 15:05:44 3809

原创 机器学习中的模型评估方法和指标

机器学习模型的评估方法和指标1、选择怎样的评估指标1.1 Online metrics vs Offline metricsOnline metrics是直接在线上环境做AB测试,比较两个实验组的核心指标,比如CTR、转化率等。Offline metrics是希望在模型上线之前,使用历史数据进行效果评估。离线指标有些是纯数学模型指标,有些是结合实际问题的量化指标。1.2 单值评估指标 vs 多值评估指标单值评估指标清晰明了,有利于最终的评估。如果有多个指标都是很重要的,可以将这多个值

2022-03-22 14:55:12 5402

原创 python--提取eml邮件内容

所需包:"""pip install eml_parserpip install langdetect"""import reimport csvimport osfrom bs4 import BeautifulSoupimport eml_parserfrom langdetect import detectfrom langdetect import DetectorFactoryfrom translate import Translator # 英汉翻译部分...

2022-03-22 14:49:09 3278 1

原创 ip-纯真库:批量获取ip归属地

1、所需python包:from qqwry import QQwry #pip install qqwry-py3from IPy import IPimport socketimport threadingimport csvimport timeimport eventletfrom urllib.parse import urlparseq = QQwry()q.load_file('qqwry.dat')2、多线程处理函数:threads_ip(参数1,参数2)

2022-03-22 14:44:37 4378

原创 CDN原理与识别

1、问题遇到了一个问题,就是同一个域名,在两个网站上查到它的 IP 是不一样的???这是为什么呢?这是因为 CDN:CDN 即 content delivery network(内容分发网络),通过在网络各处放置节点服务器所构成的 在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。因此开了CDN 之后,会智能匹配当地最近的节点,所以请求的实际 IP 不同。

2022-03-22 14:28:11 7528

原创 paddleocr的安装与使用文档

一、介绍PaddleOCR 是一个基于百度飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具。项目地址:OCR-CopyText-And-Search: 适用于一些单位组织的那种在专门的APP上答题,但是又有题库的开卷考试,方便搜索答案😂😂😂基于PaddleOCR开发ORhttps://gith

2022-03-22 11:05:22 4921

原创 针对不同网站爬虫思考

想做一个漏洞信息数据库,需要爬取几个漏洞检测网站的信息,发现这几个网站或多或少存在一些反爬机制,故针对不同的网站可以采取不同的爬虫策略1、request直接爬取对于没有反爬机制的网站,可以直接使用request爬取,可加入header请求头和延长等待时间示例网站:首页 - 信息安全漏洞门户 VULHUBimport requestsfrom bs4 import BeautifulSoupimport time# get 网站文本信息def get_html(u...

2022-03-20 14:53:47 4504

原创 模拟浏览器爬取-全球ping结果

import timeimport csvfrom urllib.parse import urlparsefrom lxml import etreefrom selenium import webdriverfrom selenium. webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdri.

2022-03-20 11:19:26 593

原创 爬虫--网贷之家

import reimport requestsfrom bs4 import BeautifulSoupheader = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36", 'Cookie':}url = "https://www.wdzj.com/daohang.

2022-03-19 17:50:21 736 1

原创 爬虫--谷歌浏览器输入关键词爬取网站

import urllibimport requestsfrom bs4 import BeautifulSoup# desktop user-agentUSER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"# mobile user-agentMOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM.

2022-03-19 17:49:07 2040

原创 正则表达式介绍+一些简单应用

一、正则语句介绍语法 说明 表达式示例 完整匹配的字符串 一般字符 匹配自身 abc abc . 除换行符'\n'以外的任意字符 a.c abc \ 转义字符,是后一个字符改变原来的意思 a\.c a.c [...] 字符集,所有的特殊字符在字符集中都失去其原有的特殊含义 a[bcd]e abe ace ade \d 数字[0-9] a\dc a1c \D 非数字..

2022-03-19 15:09:08 1220

原创 leedcode 简单一(21-40)

21-100、相同的树给定两个二叉树,编写一个函数来检验它们是否相同。如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。示例1:输入: 1 1 / \ / \ 2 3 2 3 [1,2,3], [1,2,3]输出: true递归:时间复杂度 : O(N)O(N),其中 N 是树的结点数,因为每个结点都访问一次。空间复杂度 : 最优情况(完全平衡...

2022-03-19 11:13:30 262

原创 大数据处理过程中知识汇总

背景:接到临时需求,要处理3000w的数据,分为3000个txt文件,而每个文件1万域名。问题:大量数据无法直接跑,太耗费时间,需首先清洗处理数据;思路:筛选出有ip的网站进一步看剩下多少域名1、服务器上32线程分别跑这3000个txt,生成3000个csv文件,里边保存四列数据2、python pandas 进行数据分析一、多线程编程知识思路:编程实现32线程跑2600个txt,先分list,每个list里边为32个str的数字,作为读取txt的路径以及生成的csv的文件名..

2022-03-17 17:53:00 980

原创 Python画一个中国地图玩玩

from pyecharts import Mapprovince_distribution = {'四川': 239.0, '浙江': 231.0, '福建': 203.0, '江苏': 185.0, '湖南': 152.0, '山东': 131.0, '安徽': 100.0, '广东': 89.0, '河北': 87.0, '湖北': 84.0, '吉林': 75.0}province = list(province_distribution1.keys()) num = list(pr...

2022-03-17 17:50:45 3103 2

原创 socket请求ip遇到的问题

请求ip及归属地代码:import socketq = QQwry()q.load_file('qqwry.dat')ip = socket.gethostbyname(url) #ipaddress = list(q.lookup(ip)) #归属地及服务商问题汇总:1、出现第三方包已安装但是import出错的解决方法:#注意python版本2和3的区别import syssys.path.append(r'/usr/local/lib/python3.6/s..

2022-03-17 17:48:40 3625

原创 如何基于Python的minhash数据包建一个简单的推荐系统

基于Python的datasketch 库打造一个简单的推荐系统

2022-03-17 16:34:16 946

原创 csv数据量很大怎么处理?-----分片处理技巧

问题:对于一个数据量很大的csv文件进行操作时,一次性全部读取出来再出来可以很耗时间和资源;解决方法:1、可以考虑分片读取(一片500或1000或者视情况而定),按照片数依次处理; 2、考虑多线程,将数据一次性读出,然后分多线程同时处理。# 分片处理csv文件def chunk_csv(file1, chunk_size=500): """ 输入csv:html_content_id 每500个id为一组,读库--查库--获得h...

2022-03-17 16:12:29 6040

原创 leedcode 简单一(1-20)

来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/longest-common-prefix著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。1-1、两数之和:给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。你可以假设每种输入只会对应一个...

2019-11-21 20:20:55 424

原创 MySQL经典50道练习题

https://blog.csdn.net/Thomson617/article/details/83140926https://blog.csdn.net/weixin_39718665/article/details/78161818

2019-11-15 16:19:03 600

原创 聚类和分类的区别

分类算法与聚类算法的区别:1.类别是否预先定义是最直观区别算法书上往往这样解释二者的区别:分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来...

2019-09-17 13:20:29 36877 4

转载 机器学习算法的优缺点

决策树一、 决策树优点1、决策树易于理解和解释,可以可视化分析,容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时,运行速度比较快。4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。二、决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果偏向数值比...

2019-09-17 13:13:09 4387

转载 数据清洗

https://www.cnblogs.com/163yun/p/9518861.htmlhttps://blog.csdn.net/jiazericky/article/details/80322225数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为我们可以进一步加工、使用的数据。所谓的数据清洗,也就是ETL处理,包含抽取Extrac...

2019-09-17 11:07:46 1031

转载 常用特征选择方法

https://www.cnblogs.com/molieren/articles/10617863.html1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换3 特征选择...

2019-09-17 11:07:36 946

转载 特征工程详解

https://www.cnblogs.com/molieren/articles/10611461.html

2019-09-17 11:07:27 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除