Py菜菜鸟
码龄9年
关注
提问 私信
  • 博客:123,415
    123,415
    总访问量
  • 12
    原创
  • 1,707,631
    排名
  • 31
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2016-08-06
博客简介:

小菜鸟的博客

博客描述:
about ptyhon
查看详细资料
个人成就
  • 获得32次点赞
  • 内容获得6次评论
  • 获得186次收藏
创作历程
  • 23篇
    2018年
成就勋章
TA的专栏
  • 循环
    4篇
  • 占位符
    1篇
  • list
    2篇
  • win32
    1篇
  • Crawler
    3篇
  • library
  • urllib
    6篇
  • re
    1篇
  • S
  • random
    1篇
  • set
    1篇
  • python
    1篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

python基础应用

重点保留三位小数#圆柱体的表面积#输入底面半径R和高H,输入圆柱体的表面积,保留3位小数#3.5 9#area = 274.889r = 3.5h = 9pi = 3.14x = pi * r * r y = 2 * pi * r * hz = x * 2 + yprint("z = %0.1f" % z )print("z = %0.2f" % z )print(...
原创
发布博客 2018.10.29 ·
533 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python-str

ord("A")ord("中")chr(66)chr(25991)#打印一到1百的对应的字符for x in range(100): print(chr(x))for x in range(100): if x == ord("A"): print(x)for y in range(65, 90): print(chr(y))c = len("a")d = len(...
原创
发布博客 2018.10.24 ·
472 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python集合

'''set()集合,是一个无序不重复元素的序列注意:创建一个空集合必须用set()'''a = set("12324516374890")b = set("123")print(a)print(b)print(a - b) #差集print(a | b) #并集print(a & b) #交集print(a ^ b) #a和b中不同时存在的元素 ...
原创
发布博客 2018.10.23 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

双色球杀号随机版1.0

#所杀号码由互联网提供import random#红球杀号10个def shaR(): redSum = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33] times = ...
原创
发布博客 2018.10.20 ·
2607 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

正则表达式

re.match() 格式:re.match(pattern,string,flag)pattern:代表对应的正确表达式 string:代表对应的源字符 flag:可选参数,代表对应的标志位import restring = "pythonhelloyourpythonisverypython"pattern = ".python."result1 = re.ma...
翻译
发布博客 2018.10.18 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

URLError

异常处理:URLErrorimport urllib.requestimport urllib.errortry: urllib.request.urlopen("URL")except urllib.error.URLError as e: #打印异常code print(e.code) #打印异常原因 print(e.reason)...
翻译
发布博客 2018.10.18 ·
1333 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Debuglog

思路:分别用urllib.request.HTTPHander()和urllib.request.HTTPSHander()将debuglevel设置为1 使用urllib.request.build_opener()创建自定义的opener对象,并使用1.中作为参数 用urllib.request.install_opener()创建全局默认的opener对象,在使用urlopen()时...
翻译
发布博客 2018.10.17 ·
2899 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HTTP协议请求实战-POST请求

如何使用爬虫通过POST表单传递消息,我们要构造POST请求,实现思路:设置好URL网站 构建表单数据,并使用urllib.parse.urlencode对数据进行编码处理 创建Request对象,参数包括URL地址和要传递的数据 使用add_header()添加头信息,模拟浏览器进行爬取 使用urllib.request.urlopen()打开对应的Request,完成信息的传递 ...
翻译
发布博客 2018.10.17 ·
1013 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HTTP协议请求实战-GET请求

 GET请求:GET请求会通过URL网址传递消息,可以直接在URL中写上要传递的信息,也可以由表单进行传递。如果使用表单进行传递,这表单中的信息会自动转为URL地址中的数据,通过URL地址传递。比如,如果需要实现用爬虫自动地在百度上查询关键词为hello的结果,可以使用一下代码:#没有中文的GETimport urllib.requestkeywd = "hello"ur...
翻译
发布博客 2018.10.17 ·
946 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

headers and timeout

有时我们无法爬取到网页会显示403错误,因为这些网站为了防止别人恶意的采集其信息所以进行了一些反爬虫的设置。那么如果我们想爬取这些网页信息应该怎么办?可以设置一些headers信息,模拟成浏览器去访问这些网站例如我要爬取CSDN博客的内容出现403error:import urllib.requesturl = "http://bolg.cdsid.net/..."file ...
翻译
发布博客 2018.10.17 ·
702 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

urllib简单了解

#导入库import urllib.request#爬取网页并赋值给变量file = urllib.request.urlopen("http://www.baidu.com")#读取网页全部内容 data = file.read()#读取网页中一行内容dataFile = file.readline()'''file.read()与readlines不同的时,read会把读取...
翻译
发布博客 2018.10.17 ·
2241 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

替代 MatLab

NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用。 这种组合广泛用于替代 MatLabNumPy: 数组的算数和逻辑运算。 傅立叶变换和用于图形操作的例程。 与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数 import numpy as npnp.array()参数及描述...
转载
发布博客 2018.10.16 ·
3461 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

平均每年发生某件事的次数

'''需求x * y0 * 1 = 01 * 3 = 32 * 0 = 03 * 1 = 34 * 4 = 16'''a = [1, 3, 0, 1, 4]b = sum(x*y for x, y in zip(range(8), a))/sum(a)                   c = sum(x*y for x, y in zip(range(8), a))...
原创
发布博客 2018.10.16 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python 累加

num_years = [1, 2, 3, 4, 5]print(num_years[0])print(type(num_years[0]))a = len(num_years)b = 0for x in range(a):    b += x + 1print(b)
原创
发布博客 2018.10.16 ·
6154 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

聚焦网络爬虫原理

对爬取目标的定义和描述。在聚焦网络爬虫中,我们首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标,以及进行相关的描述 获取初始的URL 根据初始的URL爬取网页,并获得新的URL 从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的抓取是有目的性,所以与目标无关的网页将会被过滤掉。同时,也需要将已爬取的URL地址存放到一个列表中,用于去重和判断爬取的进程 将过滤后的链接放到UR...
转载
发布博客 2018.10.15 ·
7383 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

通用网络爬虫实现原理

获取初始URL。初始URL地址可以有用户人为指定,也可以由用户指定的某个或某几个初始爬取网页决定。 根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后,首先需要爬取对应URL地址中的网页,爬取了对应的URL地址中的网页后,将网页存储到原始数据库中,并且在爬取网页的同时,发现新的URL地址,同时将已爬取的URL地址存放到一个URL列表中,用于去重及判断爬取的进程 ...
翻译
发布博客 2018.10.15 ·
5233 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

常见网络爬虫的类型

1.通用网络爬虫(General Purpose Web Crawler) 爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。 通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。 通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。2.聚焦网络爬虫(Foc...
原创
发布博客 2018.10.15 ·
17734 阅读 ·
2 点赞 ·
1 评论 ·
34 收藏

【转】python win32api win32gui win32con 简单操作教程(窗口句柄 发送消息 常用方法 键盘输入)

import win32guiimport win32conimport win32api# 从顶层窗口向下搜索主窗口,无法搜索子窗口# FindWindow(lpClassName=None, lpWindowName=None)  窗口类名 窗口标题名handle = win32gui.FindWindow("Notepad", None) # 获取窗口位置left, to...
转载
发布博客 2018.10.14 ·
20773 阅读 ·
13 点赞 ·
1 评论 ·
111 收藏

list 函数&方法

#len:列表元素个数a = ['a','b','c']print(len(a))#max:返回列表元素最大值a = ['a','b','c']print(max(a))#min:返回列表元素最小值a = ['a','b','c']print(min(a))#list:将元组或字符串转换为列表T = (1,2,3)print(list(T))#.append(...
原创
发布博客 2018.10.11 ·
20618 阅读 ·
5 点赞 ·
0 评论 ·
20 收藏

python list基础

.列表可以被索引和切片:list1 = [1,2,3,4,5]print(list1)print(list1[0])print(list1[-1])print(list1[1:])print(list1[:2]) .浅拷贝 and 深拷贝#区别:浅拷贝,没有拷贝子对象,所以原始数据改变,子对象会改变             深拷贝,包含对象里面的自对象的拷贝,所以原始...
原创
发布博客 2018.10.11 ·
347 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多