lynn_321-CSDN博客

原创从sklearn说机器学习

SKlearn简介scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。SKlearn官网：scikit-learn: machine learning in Python在工程应用中，用python手写代码来从头实现一个算法的可能性非常低，这样不仅耗时耗力，还不一定能够写出构架清晰，稳定性强的模型。更多情况下，是分析采

2022-03-23 11:56:06 2558

原创 python--查询PG数据库

1、连接到PostgreSQL数据库并查询数据首先引用psycopg2模块：import psycopg2然后就可以通过如下方式连接到PostgreSQL数据库并执行查询数据的SQL语句：# database，user，password，host，port分别对应要连接的PostgreSQL数据库的数据库名、数据库用户名、用户密码、主机、端口信息，请根据具体情况自行修改conn = psycopg2.connect(database="test",user="postgres",pas

2022-03-23 11:50:39 4882

原创 python --数据分析常用

参考网址：Python3 pandas用法大全 - 整合侠 - 博客园pandas数据分析总结大全（入门加进阶） - 知乎[译]Pandas常用命令对照清单 - 简书import numpy as npimport pandas as pdimport csvimport xlrdpd.set_option('display.max_columns', None)# 读写文件data=pd.DataFrame(pd.read_csv('D:/****.csv',engine..

2022-03-23 11:45:19 582

原创 python 、linux下操作sqlite3数据库

查看版本 sqlite3 -version打开或创建数据库 sqlite3 test.db查看数据库信息 sqlite>.database 查看所有表 sqlite>.table 查看所有表的创建语句： sqlite>.schema 查看某个表的创建语句: sqlite>.schema table_name 最重要的一个命令，执行sql语句（必须以分号结尾，不加分号就敲回车则是分行） sqlite>select * from table_name; 退出SQLite s

2022-03-23 11:37:52 2767

原创 Linux 知识总结

用户管理一个用户至少属于一个组 /home/添加用户：useradd [] 用户名切换目录：cd 创建目录：mkdir 创建文件：touch 修改密码：passwd XX删除用户：只删除用户名称: userdel XX既删除用户名称也删除用户组：userdel -r XX查询用户信息：id XX切换用户： su -XX返回原用户： exit查看当前用户： who am I用户组：增加用户组： groupadd删除用户组： ...

2022-03-23 11:35:34 2178

原创文件读写-csv

前言逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列.特点读取出的数据一般为字符类型，如果是数字需要人为转换为数字以行为单

2022-03-23 11:22:16 2162

原创 Python编码规范

1、注意事项（1）文档仅适用于基于Python主要发行版本的标准库。（2）文档中的约定应基于现实考虑灵活处理，根据自身需求和团队其他成员的阅读习惯做适当调整。（3）若遵循文档中的规范使得代码可读性更差，或者因不符合个人习惯会造成代码错误，应适当采用。（4）已完成的代码未很好的遵循文档规范，不建议重新修改。2、代码布局2.1、Indentation 缩进每一级缩进使用4个空格。续行应该与其包裹元素对齐，要么使用圆括号、方括号和花括号内的隐式行连接来垂直对齐，要么使用

2022-03-23 11:19:14 3180

原创 git知识分享

Git&GitHub知识分享前言1.1什么是版本控制版本控制（Revision control）是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术。优点：协同修改多人并行不悖的修改服务器端的同一个文件。数据备份不仅保存目录和文件的当前状态，还能够保存每一个提交过的历史状态。版本管理在保存每一个版本的文件信息的时候要做到不保存重复数据，以节约存储空间，提高运行效率。这方面 SVN 采用的是增量

2022-03-23 11:17:02 665

原创 docker 概述

Dockerfile概述 Dockerfile是docker中镜像文件的的描述文件，说的直白点就是镜像文件到底是由什么东西一步步构成的。例如：你在淘宝上买了一个衣架，但是卖家并没有给你发一个完整的衣架，而是一些组件和一张图纸，你按照这个图纸一步一步将衣架组装起来，就成了你所需要的样子。那么 Dockerfile 就是这张图纸，镜像文件就是你需要的这个衣架，Dockerfile 不建议随便命名，就用 Dockerfile。因此，Dockerfile其内部包含了一条条的指令，每一条指令构建一层，因

2022-03-22 15:05:44 3739

原创机器学习中的模型评估方法和指标

机器学习模型的评估方法和指标1、选择怎样的评估指标1.1 Online metrics vs Offline metricsOnline metrics是直接在线上环境做AB测试，比较两个实验组的核心指标，比如CTR、转化率等。Offline metrics是希望在模型上线之前，使用历史数据进行效果评估。离线指标有些是纯数学模型指标，有些是结合实际问题的量化指标。1.2 单值评估指标 vs 多值评估指标单值评估指标清晰明了，有利于最终的评估。如果有多个指标都是很重要的，可以将这多个值

2022-03-22 14:55:12 5272

原创 python--提取eml邮件内容

所需包："""pip install eml_parserpip install langdetect"""import reimport csvimport osfrom bs4 import BeautifulSoupimport eml_parserfrom langdetect import detectfrom langdetect import DetectorFactoryfrom translate import Translator # 英汉翻译部分...

2022-03-22 14:49:09 3030 1

原创 ip-纯真库：批量获取ip归属地

1、所需python包：from qqwry import QQwry #pip install qqwry-py3from IPy import IPimport socketimport threadingimport csvimport timeimport eventletfrom urllib.parse import urlparseq = QQwry()q.load_file('qqwry.dat')2、多线程处理函数：threads_ip(参数1，参数2)

2022-03-22 14:44:37 4250

原创 CDN原理与识别

1、问题遇到了一个问题，就是同一个域名，在两个网站上查到它的 IP 是不一样的？？？这是为什么呢？这是因为 CDN：CDN 即 content delivery network（内容分发网络），通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络，CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。因此开了CDN 之后，会智能匹配当地最近的节点，所以请求的实际 IP 不同。

2022-03-22 14:28:11 7366

原创 paddleocr的安装与使用文档

一、介绍PaddleOCR 是一个基于百度飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。本教程将介绍PaddleOCR的基本使用方法以及如何使用它开发一个自动搜题的小工具。项目地址：OCR-CopyText-And-Search: 适用于一些单位组织的那种在专门的APP上答题，但是又有题库的开卷考试，方便搜索答案😂😂😂基于PaddleOCR开发ORhttps://gith

2022-03-22 11:05:22 4685

原创针对不同网站爬虫思考

想做一个漏洞信息数据库，需要爬取几个漏洞检测网站的信息，发现这几个网站或多或少存在一些反爬机制，故针对不同的网站可以采取不同的爬虫策略1、request直接爬取对于没有反爬机制的网站，可以直接使用request爬取，可加入header请求头和延长等待时间示例网站：首页 - 信息安全漏洞门户 VULHUBimport requestsfrom bs4 import BeautifulSoupimport time# get 网站文本信息def get_html(u...

2022-03-20 14:53:47 4455

原创模拟浏览器爬取-全球ping结果

import timeimport csvfrom urllib.parse import urlparsefrom lxml import etreefrom selenium import webdriverfrom selenium. webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdri.

2022-03-20 11:19:26 559

原创爬虫--网贷之家

import reimport requestsfrom bs4 import BeautifulSoupheader = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36", 'Cookie':}url = "https://www.wdzj.com/daohang.

2022-03-19 17:50:21 667 1

原创爬虫--谷歌浏览器输入关键词爬取网站

import urllibimport requestsfrom bs4 import BeautifulSoup# desktop user-agentUSER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"# mobile user-agentMOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM.

2022-03-19 17:49:07 1850

原创正则表达式介绍+一些简单应用

一、正则语句介绍语法说明表达式示例完整匹配的字符串一般字符匹配自身 abc abc . 除换行符'\n'以外的任意字符 a.c abc \ 转义字符，是后一个字符改变原来的意思 a\.c a.c [...] 字符集，所有的特殊字符在字符集中都失去其原有的特殊含义 a[bcd]e abe ace ade \d 数字[0-9] a\dc a1c \D 非数字..

2022-03-19 15:09:08 1111

原创 leedcode 简单一（21-40）

21-100、相同的树给定两个二叉树，编写一个函数来检验它们是否相同。如果两个树在结构上相同，并且节点具有相同的值，则认为它们是相同的。示例1:输入: 1 1 / \ / \ 2 3 2 3 [1,2,3], [1,2,3]输出: true递归:时间复杂度 : O(N)O(N)，其中 N 是树的结点数，因为每个结点都访问一次。空间复杂度 : 最优情况（完全平衡...

2022-03-19 11:13:30 206

原创大数据处理过程中知识汇总

背景：接到临时需求，要处理3000w的数据，分为3000个txt文件，而每个文件1万域名。问题：大量数据无法直接跑，太耗费时间，需首先清洗处理数据；思路：筛选出有ip的网站进一步看剩下多少域名1、服务器上32线程分别跑这3000个txt,生成3000个csv文件，里边保存四列数据2、python pandas 进行数据分析一、多线程编程知识思路：编程实现32线程跑2600个txt，先分list，每个list里边为32个str的数字，作为读取txt的路径以及生成的csv的文件名..

2022-03-17 17:53:00 935

原创 Python画一个中国地图玩玩

from pyecharts import Mapprovince_distribution = {'四川': 239.0, '浙江': 231.0, '福建': 203.0, '江苏': 185.0, '湖南': 152.0, '山东': 131.0, '安徽': 100.0, '广东': 89.0, '河北': 87.0, '湖北': 84.0, '吉林': 75.0}province = list(province_distribution1.keys()) num = list(pr...

2022-03-17 17:50:45 2900

qq_24629175的博客

原创从sklearn说机器学习

原创 python--查询PG数据库

原创 python --数据分析常用

原创 python 、linux下操作sqlite3数据库

原创 Linux 知识总结

原创文件读写-csv

原创 Python编码规范

原创 git知识分享

原创 docker 概述

原创机器学习中的模型评估方法和指标

原创 python--提取eml邮件内容

原创 ip-纯真库：批量获取ip归属地

原创 CDN原理与识别

原创 paddleocr的安装与使用文档

原创针对不同网站爬虫思考

原创模拟浏览器爬取-全球ping结果

原创爬虫--网贷之家

原创爬虫--谷歌浏览器输入关键词爬取网站

原创正则表达式介绍+一些简单应用

原创 leedcode 简单一（21-40）

原创大数据处理过程中知识汇总

原创 Python画一个中国地图玩玩

原创 socket请求ip遇到的问题

原创如何基于Python的minhash数据包建一个简单的推荐系统

原创 csv数据量很大怎么处理？-----分片处理技巧

原创 leedcode 简单一（1-20）

原创 MySQL经典50道练习题

原创聚类和分类的区别

转载机器学习算法的优缺点

转载数据清洗

转载常用特征选择方法

转载特征工程详解

空空如也

空空如也