python
望极天涯
这个作者很懒,什么都没留下…
展开
-
Python网络pachong之requests模块(1)
今日概要基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据今日详情- 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中...原创 2019-03-23 20:52:38 · 263 阅读 · 0 评论 -
Python网络爬虫之requests模块(2)
今日内容session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如:#!/usr/bin/env python# -*- coding:utf-8 -*-import ...原创 2019-03-23 20:58:57 · 698 阅读 · 0 评论 -
Python网络爬虫之爬取get请求的页面数据
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。二.由易到难的爬虫程序: 1.爬取百度首页面所有数据值1 #!/usr/bin/env python 2 # -...原创 2019-03-23 21:33:13 · 393 阅读 · 0 评论 -
Python网络爬虫之验证码处理
引入相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。今日内容云打码平台处理验证码的实现流程:云打码平台处理验证码的实现流程:- 1.对携带验证码的页面数据进行抓取- 2.可以将页面数据中验证码进行解析,验证码图片下载到本地- 3.可以将验证码图片提交给三方平台进行识别,返回...原创 2019-03-23 21:39:37 · 229 阅读 · 0 评论 -
scrapy框架简介和基础应用
一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二.安装 Linux:pip3 install scrapy Wi...原创 2019-03-24 14:49:00 · 120 阅读 · 0 评论 -
pandas 使用方法总结
数据的导入import pandas as pdpd.read_csv(filename) # 导入csv格式文件中的数据pd.read_table(filename) # 导入有分隔符的文本 (如TSV) 中的数据pd.read_excel(filename) # 导入Excel格式文件中的数据pd.read_sql(query, connection_object) # 导入SQ...原创 2019-03-28 16:03:19 · 842 阅读 · 0 评论 -
python--利用datetime模块计算时间差
python中通过datetime模块可以很方便的计算两个时间的差,datetime的时间差单位可以是天、小时、秒,甚至是微秒,下面我们就来详细看下datetime的强大功能:from datetime import datetimea=datetime.now()b=datetime.now()>>>a>>>datetime.dateti...原创 2019-04-12 17:49:43 · 11888 阅读 · 0 评论 -
将dataframe 对象写入数据库中,并指定数据类型
在数据分析并存储到数据库时,Python的Pandas包提供了to_sql 方法使存储的过程更为便捷,但如果在使用to_sql方法前不在数据库建好相对应的表,to_sql则会默认为你创建一个新表,这时新表的列类型可能并不是你期望的。例如我们通过下段代码往数据库中插入一部分数据:import pandas as pdfrom datetime import datetime df = p...原创 2019-05-31 14:26:18 · 3857 阅读 · 1 评论