自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 模拟登陆并抓取丁香园全部回复

大实战:# -*- coding: utf-8 -*-"""Created on Thu May 16 13:25:11 2019@author: 38418"""import requestsfrom lxml import etreefrom selenium import webdriverimport timeheaders = { 'User-Agent'...

2019-05-17 23:51:40 242

原创 selenium 和 IP代理池

3.1 seleniumselenium:Selenium 是一个自动化测试工具,利用它可以 驱动浏览器 执行特定的动作,如点击、下拉等操作(模拟浏览器操作)同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬Selenium支持非常多的浏览器,如 Chrome、Firefox、PhantomJS等浏览器对象的初始化 并将其赋值为 browser 对象。接下来,我们要做的就是调用 ...

2019-05-15 21:55:00 80367 2

原创 解析工具的使用——Beautiful Soup、XPath

2.1 Beautiful SoupBeautiful Soup借助网页的结构和属性等特性来解析网页其在解析时 实际上依赖解析器,它 除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)——我选择使用lxml...

2019-05-13 20:34:11 1720

原创 Task1 请求和正则

通过 requests的get方法可以发送请求 给某个URL任务1.1(1)以下代码即可 发送请求给百度URL并且获得 URL响应的 内容import requestspage = requests.get('http://www.baidu.com/')print (page.content)print (requests.get('http://www.baidu.com/'...

2019-05-11 22:27:55 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除