- 博客(4)
- 收藏
- 关注
原创 模拟登陆并抓取丁香园全部回复
大实战:# -*- coding: utf-8 -*-"""Created on Thu May 16 13:25:11 2019@author: 38418"""import requestsfrom lxml import etreefrom selenium import webdriverimport timeheaders = { 'User-Agent'...
2019-05-17 23:51:40 242
原创 selenium 和 IP代理池
3.1 seleniumselenium:Selenium 是一个自动化测试工具,利用它可以 驱动浏览器 执行特定的动作,如点击、下拉等操作(模拟浏览器操作)同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬Selenium支持非常多的浏览器,如 Chrome、Firefox、PhantomJS等浏览器对象的初始化 并将其赋值为 browser 对象。接下来,我们要做的就是调用 ...
2019-05-15 21:55:00 80367 2
原创 解析工具的使用——Beautiful Soup、XPath
2.1 Beautiful SoupBeautiful Soup借助网页的结构和属性等特性来解析网页其在解析时 实际上依赖解析器,它 除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)——我选择使用lxml...
2019-05-13 20:34:11 1720
原创 Task1 请求和正则
通过 requests的get方法可以发送请求 给某个URL任务1.1(1)以下代码即可 发送请求给百度URL并且获得 URL响应的 内容import requestspage = requests.get('http://www.baidu.com/')print (page.content)print (requests.get('http://www.baidu.com/'...
2019-05-11 22:27:55 230
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人