Python学习
daxi0ng
这个人什么都没有填哦
展开
-
简单端口扫描和目录扫描的Python脚本(添加线程池)需要记的点
一、以下是一个简单的portScan代码import socketimport timeimport threadpooldef scan(port): socket.setdefaulttimeout(3) _port = int(port) try: s=socket.socket() _s=s.connect((ips,_p...原创 2019-03-15 17:19:45 · 325 阅读 · 0 评论 -
(2、爬取某电商网站的商品数据)Python爬虫与数据清洗的进化
工作流程分析1、获取出发地点列表2、获取目的地点列表3、获取目的地产品列表4、储存数据1、以网站touch.qunar.com为例,从此Request URL中得知dep代表出发地,query和originalquery代表目的地,通过修改这两个参数就可以控制遍历整个平台自由行产品遍历出所有出发地点:import requestsurl='https://...原创 2019-03-24 21:27:19 · 5422 阅读 · 0 评论 -
(1用API爬取天气预报数据)Python爬虫与数据清洗的进化
1、一个简单网页源代码爬取import requestsurl='http://www.cntour.cn/'strhtml=requests.get(url)print(strhtml.text[:50]) #提取前50个字符2、使用Beautiful Soup解析网页,可以顺便安装一下lxml库,功能强大,速度更快。复制CSS选择器路径。将css选择器路径复制到s...原创 2019-03-23 20:19:23 · 1804 阅读 · 0 评论 -
(5、pandas数据读写、选择、整理和描述)Python爬虫与数据清洗的进化
PyCharm使用pandas前需要先安装NumPy和python-dateutil模块读取CSV格式文件可以设置编码格式,可以使用delimiter="xxx",根据所读取的数据文件列之间的分隔方式设置delimiter参数,大于一个字符的分隔符被看作正则表达式,如一个或多个空格(\s+)、tab符号(\t)等。CSV写入数据如果设置index=True,则有索引。...原创 2019-04-07 17:10:05 · 649 阅读 · 0 评论 -
(4、Selenium抓取电商网站数据)Python爬虫与数据清洗的进化
1、使用Selenium模块爬取去哪儿网度假信息,此文笔者主要使用XPATH进行节点元素定位。2、首先selenium使用需要安装对应浏览器的驱动,并将驱动放入浏览器根目录,并将驱动路径加入系统环境变量。ok开始吧!以下是笔者写的例子,后面具体会讲解每个部分的作用和容易出现的坑。import requests,urllib.request,time,randomfrom sel...原创 2019-04-02 13:03:55 · 1258 阅读 · 0 评论 -
(6、Pandas数据分组、分割、合并和变形)Python爬虫与数据清洗的进化
数据分组按照City分组,并计算sum值的平均数。如果一次传入多个数组,就会得到按多列数值分组的统计结果。将省份作为索引groupby的size方法,可以返回一个含有个分组大小的Series数据分割显示30到32行的数据数据合并pandas有一些内置的合并数据集方法,如下所示:pandas.merge根据一个或多个键将多个DataFrame连...原创 2019-04-14 18:01:10 · 901 阅读 · 0 评论 -
用python如何优雅的判断一个字符串里有多少大写字母,小写字母,中文,标点符号,数字?
import res = input('输入一串字符:')char = re.findall(r'[a-z]',s)bigchar= re.findall(r'[A-Z]',s)num = re.findall(r'[0-9]',s)blank = re.findall(r' ',s)#\u4E00-\u9FFF是中文的范围chi = re.findall(r'[\u4E00-\u...原创 2019-08-06 18:43:16 · 14637 阅读 · 2 评论