嵩天python笔记_Python学习笔记

链接B站,嵩天老师零基础学习视频:https://www.bilibili.com/video/av19391909?p=2

程序设计语言:编译型,一次性执行结束(c语言)和解释型,逐条执行,便于维护(JavaScript,python等脚本语言)

拿到一个问题时:

分析问题的计算部分

确定功能,使用IPO方法进一步分析:输入;处理;输出。I(输入input)P(处理process)O(output输出)分析"

设计算法:计算公式

编写程序

运行调试程序

程序设计的步骤:

确定程序的IPO

编写程序

调试程序

问题小练习:如何利用温度摄氏度和huashi华氏度进行转换?

I(输入input)P(处理process)O(output输出)分析;

设计算法:

C = (F - 32)/ 1.8

F = C * 1.8 + 32

源码如下:

1 while(True):2 content = str(input('请输入当前温度:'))3 if content[-1] in ["c","C"]:4 huashi = int(content[:-1]) * 1.8 + 32

5 print("当前温度为摄氏度{a},转化为华氏度{b}".format(a = content,b = str(huashi) + 'F'))6 elif content[-1] in ['f','F']:7 sheshi = (int(content[:-1])- 32) / 1.8

8 print('当前温度为华氏度{0},转化为摄氏度{1}'.format(content,str(sheshi) + 'C'))9 else:10 print('输入有误')

为了提高学习兴趣,跟着嵩天老师学习了一下turtle库,这个库可以在图形化页面生成图形。

下面一段是一段生成蟒蛇源码,大家可以自己敲一下,或者直接点击源码顶部按钮,然后复制即可。

不懂得地方自行百度,搜索能力是必备的。

下面的源码,利用是函数调用。先调用main(),然后从main()函数里面调用drawSnake()函数,def 是定义函数。里面的参数,嵩天老师都已经讲解,我也注释出来了。至于源码怎么编写的,暂时不需要了解,只要先明白大概源码的作用就OK了。

1 importturtle2 defdrawSnake(rad,angle,len,neckrad):3 for i inrange(len):4 turtle.circle(rad,angle) #rad表示爬行圆形轨迹的半径位置,正值为左,负值为右,angle表示小乌龟爬行的弧度值

5 turtle.circle(-rad,angle)6 turtle.circle(rad,angle/2)7 turtle.fd(rad) #forward简写,代表爬行的直线距离

8 turtle.circle(neckrad+1,180)9 turtle.fd(rad*2/3)10

11 defmain():12 turtle.setup(1300,800,0,0) #长度,高度,左上角坐标起始点

13 pythonsize = 60

14 turtle.pensize(pythonsize) #宽度,小乌龟宽度

15 turtle.pencolor("green") #小乌龟走过的轨迹颜色

16 turtle.seth(-40) #小乌龟开始爬行的角度方向,参照数学象限

17 drawSnake(40,80,5,pythonsize/2)18 main()

生成结果如下:

1509107-20181228130423935-275953043.png

数据类型

数据类型就不详细介绍了,整型,浮点型,复数型,字符型,文件型,元组,列表,集合,字典等。

接下来学习数字类型(输一下下面的例子看看结果就知道区别,同时可以用下面的函数方法对其类型转换):

整型 int(4) 转为整数

浮点型 float(4) 转为浮点数

复数型 complex(4) 转换成复数

转换方法就是:int(),float(),complex()

运算方法:

1509107-20181228133159200-2085937959.png

字符串切片索引

下面一个小练习,最好对应嵩天老师的视频观看,简单的内容就不详述了,看视频了解。

输入1到7,然后打印出分别对应的星期一到星期日

下面是本人作出的源码,稍微多加了一点以后要写到的内容,其中包括循环,函数,__main__,__name__方法。不必纠结个别不懂得地方,船到桥下自然直,等你学到这,自然就会了,笔者也是这样过来的。

1 defcal():2 '''

3 输入1到7,然后打印出分别对应的星期一到星期日4 '''

5 for i in range(20):6 content = "星期一星期二星期三星期四星期五星期六星期日"

7 a = int(input('请输入星期几,输入用1到7数字代表:'))8 if a in list(range(1,8)):9 index = a * 3

10 output = content[index-3:index]11 print(output)12 else:13 print("请重新输入")14 continue

15 if __name__ == '__main__':16 cal()

列表的操作

1509107-20181228144958473-1941692887.png

小游戏,利用turtle库绘制五角星并填充。可以复制这段代码运行一下,同样试着更改一下参数,看看有什么变化。

1 from turtle importTurtle2 p =Turtle()3 p.speed(1)4 p.pensize(5)5 p.color('black','yellow')6 p.begin_fill()7 for i in range(5):8 p.fd(200)9 p.right(144)10 p.end_fill()

输出结果:

1509107-20181228193817163-1260583209.png

词云:如下图所示

1509107-20190104105647703-1689045242.png

源码如下,尝试手动输出:

输入前请安装jieba库、wordcloud库、以及scipy库,安装方式pip install 库名

下面划线的部位根据自己文档和图片,字体的实际路径填写。

1509107-20190104105854224-275262397.png

源码:

1 importjieba2 from wordcloud importWordCloud,STOPWORDS3 from scipy.misc importimread4 importmatplotlib.pyplot as plt5 #读取文件

6 obj_content = open("C:/Users/Desktop/ciyun.txt",'r')7 text=obj_content.read()8 #对文本进行分词

9 cut_text = ''.join(jieba.cut(text))10 #读取图片

11 picture = imread("C:/Users/Desktop/timg.jpg")12 #导入字体

13 cloud = WordCloud(font_path = "C:/Users/Desktop/simsun.ttc",14 background_color = 'white',15 mask =picture,16 max_words = 3000,17 max_font_size = 40)18 word_cloud =cloud.generate(cut_text)19 #输出图片

20 plt.axis('off')21 plt.imshow(word_cloud)22 plt.show()

网络爬虫---robots协议

robots协议就是不被允许的爬虫

例子:看一下百度的robots协议

网址:http://www.baidu.com/robots.txt

1509107-20190103210551459-1981343362.png

User-agent:后面指的被百度禁止的恶意爬虫,

disallow:后面的是被禁止的通配符类型,最后一个不允许爬虫访问的资源目录

京东的robots协议,被京东禁止的爬虫。在网址后面加/robots.txt就可以了。https://www.jd.com/robots.txt

1509107-20190103211100612-857352105.png

QQ的robots协议https://www.qq.com/robots.txt

1509107-20190103211132167-328166696.png

爬取网页源码通用框架:(为防止异常外加try :语句 except:语句)

1 #通用爬取网页的代码框架

2 importrequests3 defgetHtmlText(url):4 try:5 r = requests.get(url,timeout = 5)6 r.raise_for_status() #如果状态不是200,引发HttpError异常

7 r.encoding =r.apparent_encoding8 returnr.text9 except : #except Exception as e

10 return "产生异常"

11 if __name__ == '__main__':12 url = "www.baidu.com"

13 print(getHtmlText(url))

实例一:

爬取京东商城手机信息:https://item.jd.com/5853575.html

1509107-20190103220257580-2061648027.png

过程如下:

1509107-20190103220721943-927867201.png

源码:

1 #通用爬取网页的代码框架

2 importrequests3 defgetHtmlText(url):4 try:5 r = requests.get(url,timeout = 5)6 r.raise_for_status() #如果状态不是200,引发HttpError异常

7 r.encoding =r.apparent_encoding8 return r.text[:1000]9 except : #except Exception as e

10 return "产生异常"

11 if __name__ == '__main__':12 url = "https://item.jd.com/5853575.html"

13 print(getHtmlText(url))14

运行结果和上面截图一样。

实例二:

1509107-20190104085050621-898166491.png

爬取亚马逊商城商品信息:

1 importrequests2 url = 'https://www.amazon.cn/dp/B07G5Z9H8R/ref=lp_106200071_1_1?s=pc&ie=UTF8&qid=1546562300&sr=1-1'

3 try:4 kv = {"user_agent":"Mozilla/5.0"}5 r = requests.get(url,headers =kv)6 r.raise_for_status()7 r.encoding =r.apparent_encoding8 print(r.text[1000:2000]) #返回字符串一万多行,截取了一部分字符串

9 except:10 print("异常返回")

实例三:

爬取苏宁易购ipad商品信息

1 importrequests2 url = 'https://product.suning.com/0000000000/10400501623.html?safp=d488778a.13701.productWrap.1'

3 #请求头 模拟浏览器登陆

4 kv = {"user-agent":"Mozilla/5.0"}5 try:6 r = requests.get(url,headers =kv)7 r.raise_for_status()8 r.encoding =r.apparent_encoding9 print(r.text[:1000])10 except:11 print("爬取失败")

百度搜索关键词借口:https://www.baidu.com/s?wd=keyword

1 importrequests2 url = 'http://www.baidu.com/s'

3 kv = {'wd':"python"}4 try:5 r = requests.get(url,params =kv)6 r.raise_for_status()7 r.encoding =r.apparent_encoding8 print(r.request.url)9 print(len(r.text))10 except:11 print("爬取失败")12

13 importrequests14 url = 'http://www.baidu.com/s'

15 kv = {'wd':"赵蕴卓"}16 try:17 r = requests.get(url,params =kv)18 r.raise_for_status()19 r.encoding =r.apparent_encoding20 print(r.request.url)21 print(len(r.text))22 except:23 print("爬取失败")

搜狗搜索关键字接口:https://www.sogou.com/web?query=keyword

1 importrequests2 url = 'http://www.sougou.com/web'

3 kv = {'query':"python"}4 try:5 r = requests.get(url,params =kv)6 r.raise_for_status()7 print(r.request.url)8 print(len(r.text))9 except:10 print('搜索失败')

360搜索关键词接口:https://www.so.com/s?q=keyword

1 importrequests2 url = 'https://www.so.com/s'

3 kv = {"q":"python"}4 try:5 r = requests.get(url,params =kv )6 r.raise_for_status()7 r.encoding =r.apparent_encoding8 print(r.request.url)9 print(len(r.text))10 except:11 print('爬取错误')

爬取网页图片并存储:

1 importrequests2 importos3 importtime4 url = 'http://wx1.sinaimg.cn/bmiddle/b4d7da4cly1fdk29b03dwj22c03407wi.jpg'

5 root = 'D://pics//'

6 path = root + url.split('/')[-1]7 try:8 if notos.path.exists(root):9 os.mkdir(root)10 if notos.path.exists(path):11 r =requests.get(url)12 with open(path,'wb') as f:13 f.write(r.content)14 f.close()15 time.sleep(3)16 print('下载完成')17 else:18 print("该文件已存在")19

20 except:21 print("爬取失败")

利用ip138查询接口查询输入ip地址的归属地http://www.ip138.com/

查看网页的ip地址可以在dos页面输入 ping + 网址(不加http协议) ,例如:ping www.baidu.com

ip以我校ip地址为例

1 #查询ip地址

2 importrequests3 url = 'http://www.ip138.com/ips138.asp?ip='

4

5 try:6 r = requests.get(url + "60.175.65.100")7 r.raise_for_status()8 r.encoding =r.apparent_encoding9 print(r.text[7100:7400])10 except:11 print('查询失败')

BeautifulSoup库---美味汤

语法两行搞定:

from bs4 import BeautifulSoup

soup = BeautifulSoup('

data

','html.parser'),第二个参数是解析方法

1 url = 'https://python123.io/ws/demo.html'

2 importrequests3 from bs4 importBeautifulSoup4 r =requests.get(url)5 demo =r.text6 soup = BeautifulSoup(demo,'html.parser')7 print(soup.prettify())

案例:最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

爬取大学排名信息:

源码如下

1 importrequests2 from bs4 importBeautifulSoup3 importbs44 defgetHtmlText(url):5 '''提取html'''

6 try:7 r = requests.get(url,timeout = 30)8 r.raise_for_status()9 r.encoding =r.apparent_encoding10 returnr.text11 except:12 return ""

13

14 deffillUnivList(ulist,html):15 '''提取关键信息,填到列表中,这是一个二维列表16 列表里面的每一个元素是一个学校信息,每一个元素17 仍是一个含有三个元素的列表'''

18 soup = BeautifulSoup(html,'html.parser')19 for tr in soup.find('tbody').children:20 ifisinstance(tr,bs4.element.Tag):21 tds = tr('td')22 ulist.append([tds[0].string,tds[1].string,tds[2].string])23

24

25 defprintUnivList(ulist,num):26 ''''输入表头,和输出排名信息'''

27 plt = "{0:{3}<10}\t{1:{3}^10}\t{2:{3}>10}" #^居中对齐;<左对齐;>右对齐;

28 print(plt.format('排名','学校','总分',chr(12288))) #chr(12288)中文空格填充,放在对齐符号前面记住就行。

29 for i inrange(num):30 u =ulist[i]31 print(plt.format(u[0],u[1],u[2],chr(12288)))32 print('Suc' +str(num))33 defmain():34 unifo =[]35 url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'

36 html =getHtmlText(url)37 fillUnivList(unifo,html)38 printUnivList(unifo,20)39 main()40

1509107-20190106093828110-890019360.png

输入结果:

1509107-20190106093907191-22657350.png

正则表达式

1509107-20190106170821135-498731902.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值