自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 用密钥激活win10显示无法连接到你的组织的激活服务器0xc004f074

在电脑上新建文本文档,文本内容为slmgr /ipk (此处为你的密钥)slmgr /skms kms.03k.orgslmgr /ato选择另存为,后缀改为.bat,保存类型为所有文件,以管理员身份运行这个.bat文件,一路确定就o了

2021-01-16 19:54:37 10205 20

原创 母牛的故事

Time Limit: 1000MS Memory limit: 65536K题目描述有一头母牛,它每年年初生一头小母牛。每头小母牛从第四个年头开始,每年年初也生一头小母牛。请编程实现在第n年的时候,共有多少头母牛?输入输入数据由多个测试实例组成,每个测试实例占一行,包括一个整数n(0< n< 55),n的含义如题目中描述。 n=0表示输入数据的结束,不做处理。输出对于每个测试实...

2020-01-31 12:07:42 149

原创 三国佚事

三国佚事——巴蜀之危Time Limit: 1000MS Memory limit: 65536K题目描述话说天下大势,分久必合,合久必分。。。却道那魏蜀吴三国鼎力之时,多少英雄豪杰以热血谱写那千古之绝唱。古人诚不我欺,确是应了那句“一将功成万骨枯”。?是夜,明月高悬。诸葛丞相轻摇羽扇,一脸愁苦。原来是日前蜀国战事吃紧,丞相彻夜未眠,奋笔急书,于每个烽火台写下安排书信。可想,这战事多变,丞相...

2020-01-31 11:20:49 167

原创 骨牌铺方格

骨牌铺方格Time Limit: 1000MS Memory limit: 32768K题目描述在2×n的一个长方形方格中,用一个1× 2的骨牌铺满方格,输入n ,输出铺放方案的总数. 例如n=3时,为2× 3方格,骨牌的铺放方案有三种,如下图:输入输入数据由多行组成,每行包含一个整数n,表示该测试实例的长方形方格的规格是2×n (0< n<=50)。输出对于每个测...

2020-01-31 11:20:08 123

原创 Orange the Apple

Orange the AppleTime Limit: 1000MS Memory limit: 65536K题目描述把M个同样的苹果放在N个同样的盘子里,允许有的盘子空着不放,问共有多少种不同的分法?(用K表示)5,1,1和1,5,1 是同一种分法。输入第一行是测试数据的数目t(0 <= t <= 100)。以下每行均包含二个整数M和N,以空格分开。1<=M,N<...

2020-01-31 11:19:27 196

转载 折线分割平面

折线分割平面Time Limit: 1000MS Memory limit: 32768K题目描述我们看到过很多直线分割平面的题目,今天的这个题目稍微有些变化,我们要求的是n条折线分割平面的最大数目。比如,一条折线可以将平面分成两部分,Input输入数据的第一行是一个整数C,表示测试实例的个数,然后是C 行数据,每行包含一个整数n(0< n<=10000),表示...

2020-01-31 11:19:00 184

转载 《机器学习实战》KNN

一.KNN简介KNN(K-Nearest-Neighbor):采用测量不同特征值间的距离或相似度的方法进行分类1.算法原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与k个最相似的数据进行比较,选择k个数据中出现次数最多的分类,作为新数据的分类...

2019-12-13 21:01:57 719

转载 分类算法之朴素贝叶斯分类

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1 分类问题综述对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是...

2019-12-12 14:36:03 208

转载 分类算法之决策树概述

摘要决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4....

2019-12-12 13:59:25 501

转载 机器学习术语表

http://www.omegaxyz.com/2018/03/22/machine_learning_glossary/

2019-12-12 13:17:46 92

转载 干了这碗鸡汤

http://www.omegaxyz.com/2018/03/22/passion/

2019-12-12 13:12:38 111

原创 图形验证码识别技术

阻碍我们爬虫的有时候正是在登录或者请求一些数据时侯的图形验证码,因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值。因此开源的比较少。这里介...

2019-12-10 16:38:28 246

原创 pacharm

今天突然发现pycharm挺强的,可以看代码历史,希望某天CSDN能让我看博客历史

2019-12-03 20:55:14 141

原创 多线程下载百思不得姐段子

import requestsfrom lxml import etreeimport threadingfrom queue import Queueimport csv class BSSpider(threading.Thread): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win...

2019-12-02 22:21:32 156

原创 GIL全局解释器所详解

2019-12-02 20:58:28 128

原创 多线程下载表情包之异步爬虫

import requestsfrom lxml import etreeimport osfrom urllib import requestfrom queue import Queueimport threadingclass Producer(threading.Thread): headers = { 'User-Agent': 'Mozilla/...

2019-11-30 17:34:01 134

原创 多线程下载表情包之同步爬虫

import requestsfrom lxml import etreeimport osfrom urllib import requestimport redef parse_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...

2019-11-30 16:41:58 102

原创 糗事百科爬虫

import requestsimport redef parse_url(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'...

2019-11-28 22:24:21 157

原创 正则表达式值古诗文网爬虫

import requestsimport redef parse_url(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'...

2019-11-28 21:14:37 170

原创 多线程爬虫

有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有多节车厢。多线程...

2019-11-27 17:55:01 238 2

原创 csv文件处理

读取csv文件的两种方式:import csvwith open('stock.csv', 'r') as fp: #reader是一个迭代器 reader = csv.reader(fp) titles = next(reader) for x in reader: print(x)这样操作,以后获取数据的时候,就要通过下表来获取数据...

2019-11-26 17:39:31 132

原创 爬虫json文件处理

json文件处理:什么是jsonJSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。...

2019-11-25 20:48:00 282

原创 爬虫正则表达式

正则表达式和re模块什么是正则表达式通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin一个段子:世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。1.正则表达式的常用规则1.1 匹配某个字符串import...

2019-11-25 18:18:48 228

原创 python爬虫之bs4

1.BeautifulSoup4库和lxml一样,Beautiful Soup也是一个HTML/XML的解析器主要的功能也是解析和接收HTML/XML数据。lxml只会局部遍历,而BeautifulSoup是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSo...

2019-11-22 20:33:18 167

原创 豆瓣电影基本信息爬虫

代码如下:import requestsfrom lxml import etree#将目标网站上的页面抓去下来headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/...

2019-11-21 17:33:16 497

原创 python爬虫之lxml库

lxml库lxml是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据lxml和正则一样,也是用C语言实现的,是一款高性能的Python HTML/XML解析器,我们可以i利用之前学习的XPath语法,来快速的定位元素及节点信息。lxml python官方文档:http://lxml.de/index.html需要安装C语言库,可以使用pip安装:pip in...

2019-11-21 13:14:23 310

原创 python爬虫xpath

1 什么是XPathXPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。2 XPath开发工具1.Chrome插件XPath Helper2.Firefox插件XPath Checker3 XPath语法3.1.选取节点:XPath使用路径表达式来选取XML文档中的节点或者节点...

2019-11-20 13:14:00 117

原创 requests库

1.requests库的基本使用1.1 安装利用pip可以非常方便的安装pip install requests1.2 发送get请求1.最简单的发送get请求就是通过request.get调用resp=requests.get("http://www.baidu.com")2.添加headers和查询参数如果想添加 headers,可以传入headers参数...

2019-11-17 17:34:35 112

原创 cookie

1.cookie原理和格式详解1.什么是cookie:在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户,cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动地携带给服务器...

2019-11-15 11:18:22 114

原创 ProxyHandler实现代理ip

很多网站会检测某一段时间某个ip的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个ip的访问,所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算ip被禁止,依然可以换个ip继续爬取,urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:from urllib import request#没...

2019-11-14 14:17:22 197

原创 urllib库

urllib库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。1.urlopen函数在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以下先来看下urlopen函数基本的使用。from urllib import requestres=request.u...

2019-11-13 21:07:00 72

原创 http协议和chrome抓包工具

1.爬虫的定义网络爬虫是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动抓取互联网信息的程序。只要是浏览器能做的事,理论上,爬虫都能够做。爬虫的流程:url--->发送数据,获取响应--->提取数据--->保存发送请求,获取响应--->提取url2.爬虫分类1.通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌等)的重要组成部分,主要是将...

2019-11-13 17:46:54 185

原创 pymongo操作

安装pymongopip install pymongo今天在运行py程序时发现问题,应该是python xxx.py而不是python3 xxx.py,今天在这里卡了很长时间# coding=utf-8from pymongo import MongoClient#实例化client,建立连接client=MongoClient(host="127.0.0.1",p...

2019-11-07 21:38:07 82

原创 mongodb创建索引

索引的目的:提升查询速度测试:插入10万条数据到数据库中for(i=0;i<100000;i++){db.t255.insert({name:"test"+i,age:i})}用db.t1.find({name:'test10000'}).explain('executionStats')来显示查询时间建立索引之后对比:语法:db.集合名称.ensure...

2019-11-06 22:45:28 484

原创 mongodb聚合aggregate

聚合(aggregate)是基于数据管理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。db.集合名称.aggregate({管道:{表达式}})常用管道在mongodb中,文档处理完毕后,通过管道进行下一次处理,常用管道如下:1.$group:将集合中的文档分组,可用于统计结...

2019-11-06 18:59:28 229

原创 mongodb数据查询

1.方法find():查询db.集合名称.find({条件文档})例如:查询年龄为20的学生db.stu.find({age:20})2.方法findOne():查询,只返回第一个db.集合名称.findOne({条件文档})3.方法pretty():将结果格式化db.集合名称.find({条件文档}).pretty()比较运算符:等于:默认是等于判断,没...

2019-11-05 21:42:19 342

原创 windows下命令行使用mysql

win+R,cmd进入命令行窗口输入net start mysql再cd 到mysql下的bin目录输入mysql -u root -p输入password 进入mysql命令行模式

2019-11-05 11:33:00 88

原创 mongodb数据的备份和恢复

备份的语法:mongodump -h dbhost -d dbname -o dbdirectory-h:服务器地址,也可以指定端口号-d:需要备份的数据库名称-o:备份的数据存放的位置数据的恢复:mongorestore -h dbhost -d dbname --dir dbdirectory-h:服务器地址-d:需要恢复的数据库实例--dir:备份数...

2019-11-01 21:22:42 73

原创 mongodb安装配置及基本操作

mongodb的优势:1.易扩展:NoSQL数据库种类繁多,但是一个共同的特点就是去掉关系数据库的关系型特性。数据库之间无关系,这样就非常容易扩展。2.大数据量,高性能:NoSQL数据库都具有非常高的读写性能,尤其是在大数据量下,同样表现·优秀。这得益于它的无关系性,数据库的结构简单。3.灵活的数据模型,高可用:NoSQL无需事先为要存储的数据建立字段,随时可以存储...

2019-11-01 17:54:59 122

原创 redis_nosql和redis简介

nosql(not only sql)特点:不支持sql语法存储结构跟传统关系型数据库中的那种关系完全不同,nosql中存储的数据都是kv形式每种nosql数据库都有自己的api和语法,以及擅长的业务场景Nosql中的产品种类相当多:Mongodb,Redis,Hbase hadoop,Cassandra hadoopnosql和sql数据库的不同:适用场景不同,...

2019-10-30 19:52:29 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除