![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫入门
可爬
123445567677
展开
-
Selenium XPath的定位
利用谷歌浏览器的插件XPath Helper ,正确的写出XPath,模拟鼠标点击“账号登录”1.2.原创 2018-09-06 09:36:48 · 116 阅读 · 0 评论 -
Python爬虫利用cookie实现模拟登陆
# coding=utf-8import urllib2import cookielibimport urllib# 第一步先给出账户密码网址准备模拟登录postdata = urllib.urlencode({ 'stuid': '********', 'pwd': '########' # 密码})loginUrl = 'http://passport.cs...原创 2018-09-18 11:05:56 · 1493 阅读 · 0 评论 -
urllib2抓取网页内容
urllib 和 urllib2 都是接受 URL 请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1、urllib 仅可以接受 URL,⽽ urllib2 可以接受⼀个设置了 headers 的Request 类实例。这表示我们可以伪装⾃⼰的 User Agent 字符串等。2、urllib 提供 urlencode ⽅法⽤来 GET 查询字符串的产⽣,⽽ urllib2没有。...原创 2018-09-14 17:25:51 · 129 阅读 · 0 评论 -
登录京东爬取购物车商品及价格
python2.7 +浏览器: Google Chrome #coding:utf-8import seleniumimport selenium.webdriverimport timeimport lxmlimport lxml.etreeimport requestsdriver = selenium.webdriver.Chrome("C:\Users\A...原创 2018-09-14 21:16:59 · 1777 阅读 · 0 评论 -
脚本之家抓取标题
# encoding:UTF-8import urllib2import re#<DT><span>日期:2018-08-15</span><a href="/article/145702.htm" title="Python使用pickle模块储存对象操作示例" target="_blank">Python使用pic原创 2018-09-14 22:56:24 · 394 阅读 · 0 评论