Py菜菜鸟-CSDN博客

原创 python基础应用

重点保留三位小数#圆柱体的表面积#输入底面半径R和高H，输入圆柱体的表面积，保留3位小数#3.5 9#area = 274.889r = 3.5h = 9pi = 3.14x = pi * r * r y = 2 * pi * r * hz = x * 2 + yprint("z = %0.1f" % z )print("z = %0.2f" % z )print(...

2018-10-29 15:48:34 495

原创 python-str

ord("A")ord("中")chr(66)chr(25991)#打印一到1百的对应的字符for x in range(100): print(chr(x))for x in range(100): if x == ord("A"): print(x)for y in range(65, 90): print(chr(y))c = len("a")d = len(...

2018-10-24 11:54:08 413

原创 python集合

'''set()集合，是一个无序不重复元素的序列注意：创建一个空集合必须用set()'''a = set("12324516374890")b = set("123")print(a)print(b)print(a - b) #差集print(a | b) #并集print(a & b) #交集print(a ^ b) #a和b中不同时存在的元素 ...

2018-10-23 09:13:54 200

原创双色球杀号随机版1.0

#所杀号码由互联网提供import random#红球杀号10个def shaR(): redSum = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33] times = ...

2018-10-20 17:35:33 2469

翻译正则表达式

re.match() 格式：re.match(pattern,string,flag)pattern：代表对应的正确表达式 string：代表对应的源字符 flag：可选参数，代表对应的标志位import restring = "pythonhelloyourpythonisverypython"pattern = ".python."result1 = re.ma...

2018-10-18 12:25:04 116

翻译 URLError

异常处理：URLErrorimport urllib.requestimport urllib.errortry: urllib.request.urlopen("URL")except urllib.error.URLError as e: #打印异常code print(e.code) #打印异常原因 print(e.reason)...

2018-10-18 08:13:08 1290

翻译 Debuglog

思路：分别用urllib.request.HTTPHander()和urllib.request.HTTPSHander()将debuglevel设置为1 使用urllib.request.build_opener()创建自定义的opener对象，并使用1.中作为参数用urllib.request.install_opener()创建全局默认的opener对象，在使用urlopen()时...

2018-10-17 13:16:47 2849

翻译 HTTP协议请求实战-POST请求

如何使用爬虫通过POST表单传递消息，我们要构造POST请求，实现思路：设置好URL网站构建表单数据，并使用urllib.parse.urlencode对数据进行编码处理创建Request对象，参数包括URL地址和要传递的数据使用add_header()添加头信息，模拟浏览器进行爬取使用urllib.request.urlopen()打开对应的Request，完成信息的传递 ...

2018-10-17 12:48:34 950

翻译 HTTP协议请求实战-GET请求

GET请求：GET请求会通过URL网址传递消息，可以直接在URL中写上要传递的信息，也可以由表单进行传递。如果使用表单进行传递，这表单中的信息会自动转为URL地址中的数据，通过URL地址传递。比如，如果需要实现用爬虫自动地在百度上查询关键词为hello的结果，可以使用一下代码：#没有中文的GETimport urllib.requestkeywd = "hello"ur...

2018-10-17 12:21:51 891

翻译 headers and timeout

有时我们无法爬取到网页会显示403错误，因为这些网站为了防止别人恶意的采集其信息所以进行了一些反爬虫的设置。那么如果我们想爬取这些网页信息应该怎么办？可以设置一些headers信息，模拟成浏览器去访问这些网站例如我要爬取CSDN博客的内容出现403error：import urllib.requesturl = "http://bolg.cdsid.net/..."file ...

2018-10-17 11:49:36 619

翻译 urllib简单了解

#导入库import urllib.request#爬取网页并赋值给变量file = urllib.request.urlopen("http://www.baidu.com")#读取网页全部内容 data = file.read()#读取网页中一行内容dataFile = file.readline()'''file.read()与readlines不同的时，read会把读取...

2018-10-17 10:03:18 2118 1

转载替代 MatLab

NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用。这种组合广泛用于替代 MatLabNumPy: 数组的算数和逻辑运算。傅立叶变换和用于图形操作的例程。与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数 import numpy as npnp.array()参数及描述...

2018-10-16 14:18:00 3379

原创平均每年发生某件事的次数

'''需求x * y0 * 1 = 01 * 3 = 32 * 0 = 03 * 1 = 34 * 4 = 16'''a = [1, 3, 0, 1, 4]b = sum(x*y for x, y in zip(range(8), a))/sum(a) c = sum(x*y for x, y in zip(range(8), a))...

2018-10-16 13:27:42 180

原创 python 累加

num_years = [1, 2, 3, 4, 5]print(num_years[0])print(type(num_years[0]))a = len(num_years)b = 0for x in range(a): b += x + 1print(b)

2018-10-16 11:58:59 6056

转载聚焦网络爬虫原理

对爬取目标的定义和描述。在聚焦网络爬虫中，我们首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标，以及进行相关的描述获取初始的URL 根据初始的URL爬取网页，并获得新的URL 从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的抓取是有目的性，所以与目标无关的网页将会被过滤掉。同时，也需要将已爬取的URL地址存放到一个列表中，用于去重和判断爬取的进程将过滤后的链接放到UR...

2018-10-15 14:45:44 7143

翻译通用网络爬虫实现原理

获取初始URL。初始URL地址可以有用户人为指定，也可以由用户指定的某个或某几个初始爬取网页决定。根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后，首先需要爬取对应URL地址中的网页，爬取了对应的URL地址中的网页后，将网页存储到原始数据库中，并且在爬取网页的同时，发现新的URL地址，同时将已爬取的URL地址存放到一个URL列表中，用于去重及判断爬取的进程 ...

2018-10-15 14:11:32 5153

原创常见网络爬虫的类型

1.通用网络爬虫（General Purpose Web Crawler）爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。2.聚焦网络爬虫（Foc...

2018-10-15 11:57:00 17427 1

转载【转】python win32api win32gui win32con 简单操作教程（窗口句柄发送消息常用方法键盘输入）

import win32guiimport win32conimport win32api# 从顶层窗口向下搜索主窗口，无法搜索子窗口# FindWindow(lpClassName=None, lpWindowName=None) 窗口类名窗口标题名handle = win32gui.FindWindow("Notepad", None) # 获取窗口位置left, to...

2018-10-14 01:48:06 20499 1

原创 list 函数&方法

#len:列表元素个数a = ['a','b','c']print(len(a))#max:返回列表元素最大值a = ['a','b','c']print(max(a))#min:返回列表元素最小值a = ['a','b','c']print(min(a))#list:将元组或字符串转换为列表T = (1,2,3)print(list(T))#.append(...

2018-10-11 11:02:08 20450

原创 python list基础

.列表可以被索引和切片:list1 = [1,2,3,4,5]print(list1)print(list1[0])print(list1[-1])print(list1[1:])print(list1[:2]) .浅拷贝 and 深拷贝#区别：浅拷贝，没有拷贝子对象，所以原始数据改变，子对象会改变深拷贝，包含对象里面的自对象的拷贝，所以原始...

2018-10-11 10:53:01 298

原创 python about %

str1 = 1.2345789print('str1= %d' % str1)print('str1= %.4d' % str1)print('str1= %s' % str1)print('str1= %.4s' % str1)print('str1= %.2f' % str1)

2018-10-10 20:37:30 194

原创 python打印99乘法表

百度后了解一下for a in range(1,10): for b in range(1,10): if b >= a: print( "%s * %s = %s" % (a,b ,a*b ),' ' ,end= "" ) print()

2018-10-10 20:28:54 502

原创 python使用循环打印所有三位数水仙花数

首先水仙花数是什么？水仙花数（Narcissistic number）也被称为超完全数字不变数（pluperfect digital invariant, PPDI）、自恋数、自幂数、阿姆斯壮数或阿姆斯特朗数（Armstrong number），水仙花数是指一个 3 位数，它的每个位上的数字的 3次幂之和等于它本身（例如：1^3 + 5^3+ 3^3 = 153）。条件：它的...

2018-10-10 09:33:56 27196 3

小菜鸟的博客