banzhuojiang7392-CSDN博客

转载 day04 豌豆荚爬取游戏信息

'''''''''爬取豌豆荚app数据- 请求urlpage2:https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page=2&ctoken=vbw9lj1sRQsRddx0hD-XqCNF'''import requestsfr...

2019-07-04 09:20:00 124

转载 day03 爬取豌豆荚

from bs4 import BeautifulSoupimport requests#请求url https://www.wandoujia.com/category/6001#请求方式: getdef have_title(tag): if tag.name == 'span' and tag.has_attr("title"): ...

2019-07-03 22:04:00 101

转载 day03 解析库之搜索文档树

'''''''''find: 找第一个find_all: 找所有标签查找与属性查找:name 属性匹配 name 标签名 attrs 属性查找匹配 text 文本匹配标签: - 字符串过滤器字符串全局匹配 - 正则过滤器 ...

2019-07-03 17:40:00 144

转载 day03 解析库之遍历文档树

html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="sister"><b>$37</b></p><p class="story"...

2019-07-03 17:39:00 119

转载 day03 其他操作

'''''''''模拟浏览器的前进后退'''import timefrom selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://www.baidu.com')browser.get('https://www.taobao.com')brows...

2019-07-03 17:33:00 75

转载 day03 元素交互操作

'''''''''点击、清除'''# from selenium import webdriver# from selenium.webdriver import ActionChains# from selenium.webdriver.common.keys import Keys # 键盘按键操作# import time#### ...

2019-07-03 17:31:00 94

转载 day03 京东信息

import timefrom selenium.webdriver.common.keys import Keysfrom selenium import webdriverdriver = webdriver.Chrome(r'D:\Python\Scripts\chromedriver.exe')try: driver.implicitly_w...

2019-07-03 17:27:00 63

转载 day02 selenium选择器

''''''from selenium import webdriver # web驱动from selenium.webdriver.common.keys import Keys # 键盘按键操作import timeimport timedriver = webdriver.Chrome()try: # 隐式等待: 需要在g...

2019-07-02 17:23:00 65

转载 day02 selenium 基本使用

from selenium import webdriver # web驱动from selenium.webdriver.common.by import By # 按照什么方式查找，By.ID,By.CSS_SELECTORfrom selenium.webdriver.common.keys import Keys # 键盘按键操作from selenium....

2019-07-02 17:22:00 68

转载 day02 请求自动登录

'''POST请求自动登录github: 请求URL： http://github.com/session 请求方式: post 请求头: cookie user-agent 请求体： commit:Sign i...

2019-07-02 17:21:00 126

转载 day02 爬取豆瓣电影信息代码

# 请求url：# https://movie.douban.com/top250# 请求方式：# GET# 请求头：# User-Agent# cookies'''爬取豆瓣电影信息：电影名称电影url 电影导演电影主演电影年份电影类型...

2019-07-02 17:20:00 214

转载 day02补充day01笔记

今日内容:爬虫课程:一爬虫基本原理二reques ts请求库一爬虫基本原理1、什么是爬虫?爬虫就是爬取数据。2、什么是互联网?由一堆网络设备，把一台台的计算机互联到一起称之为互联网。3、互联网建立的目的数据的传递与数据的共享。4、什么是数据?例如:电商平台的商品信息(淘宝、京东、亚马逊)链家、自如租房平台的房源信息股票证券投资信息(东方财富、雪球网)...12306 ...

2019-07-02 17:19:00 312

转载 day01

# requests请求库# 1.安装与使用# pip3 install requests# 2.模拟浏览器# General：# Request URL:请求URL# Requst Method:请求方式# Status Code：响应状态码# Respons...

2019-07-01 16:53:00 80

banzhuojiang7392的博客