python网络爬虫
python网络爬虫
陨星落云
这个作者很懒,什么都没留下…
展开
-
简单爬取静态网页中的图像
需要说明的是,这里所介绍的简单爬虫只是利用正则表达式的一个简单应用,只适用于直接静态网页。而对于转移URL的网页、地址中带有中文的网页、监测浏览器类型的网页和动态网页等复杂爬取需求,要进一步深入应用 Python的 urllib等库方可实现。 import urllib.request import re def getHttp(url): h = urllib.request.urlopen(url) html =h.read() # print(html) r原创 2020-07-24 21:16:04 · 273 阅读 · 0 评论 -
re练习2
假定某E-mai地址由三部分构成:英文字母或数字(1-10个字符)、“@”、英文字母或数字(1~10个字符)、“.”,最后以com或org结束,其正则表达式为:^[a-A-z0-9]{1,10}@[a-zA-z0-9]{1,10}.com/org)$。输入Emai地址的测试字符串,忽略大小写,输出判断是否符合设定规则。 import re s = input("请输入测试 E-mai1地址:\n") m = re.match("^[a-zA-Z0-9]{1,10}@[a-zA-Z0-9]{1,10}\.(原创 2020-07-24 20:45:26 · 395 阅读 · 0 评论 -
re正则表达式练习
判断变量名是否符合要求 import re names = ["name1","_name","2_name","__nam!12__","__name__"] for name in names: ret = re.match("^[a-zA-Z_][a-zA-Z1-9_]*$",name) if ret: print("变量名%s符合要求"%ret.group()) else: print("变量名%s非法"%name) 结果: impor原创 2020-07-20 22:21:16 · 462 阅读 · 0 评论 -
正则表达式的常见基本符号
正则表达式的常见基本符号原创 2020-07-24 20:20:13 · 498 阅读 · 0 评论