![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习笔记
Qin_xian_shen
程序员
展开
-
爬虫学习笔记--爬取静态网页
声明:我这里是学习 唐松老师的《Python网络爬虫从入门到实践》的学习笔记 只是记录我自己学习的过程 详细内容请购买老师正版图书import requestsr = requests.get('http://www.santostang.com/')print ("文本状态码:",r.encoding);print("响应状态码:",r.status_code);prin原创 2017-09-27 13:12:35 · 2087 阅读 · 0 评论 -
爬虫学习--基于selenium动态抓捕(一)安装
selenium是什么呢?Selenium[1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器 源自百度百科这个工具非常好用,可以帮助我们去模拟浏览器,把这个运用到爬虫,就可以近似人为操作一样,并且爬到动态的信息。比如一些淘宝的评论,不是静态网页原创 2017-09-28 08:24:13 · 285 阅读 · 0 评论 -
爬虫学习笔记--Selenium PhantomJS
import osimport threadingimport refrom bs4 import BeautifulSoupfrom urllib.request import urlopenfrom selenium import webdriverbrowserPath = '/opt/phantomjs-2.1.1-linux-x86_64/bin/phantomjs'原创 2017-09-28 22:20:57 · 329 阅读 · 0 评论 -
爬虫学习笔记--用selenium 爬数据到Mysql
# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport MySQLdb;import sysimport timereload(sys)sys.setdefaultencoding('utf-8')con = MySQLdb.原创 2017-09-29 17:55:18 · 1068 阅读 · 0 评论 -
python爬虫--连接MongoDB 存数据
之前做爬虫 爬取贴吧松爱协会的内容是存在txt文件的 这个并不好 所以这一次存在Mongdb这次是在windows 安在Mongodb里 官网下载 https://www.mongodb.com/download-center?jmp=nav#community启动:mongod.exe --logpath "c:\data\log\mongodb.log"原创 2017-10-17 18:52:45 · 1959 阅读 · 0 评论 -
爬虫学习笔记--爬B站评论
由于松爱协会的小伙伴邀请,我研究了一下爬取b站上协会的一些精彩评论由于评论是动态的,所以要用到 selenium 之前的博文里已经有关于selenium的安装注意事项还要用到Firefox的firebug 去获取xpath信息 target = app.find_element_by_xpath(".//*[@id='recommend_report']/di原创 2017-10-12 12:22:02 · 3924 阅读 · 0 评论 -
爬虫学习笔记--爬取百度贴吧
由于松爱协会小伙伴的邀请 我把贴吧里的一些诗集整理了一下 用爬虫爬取下来 由于是静态的 不需要用到selenuim就直接贴代码了#coding=utf-8import requestsfrom bs4 import BeautifulSoupimport sysimport timereload(sys)sys.setdefaultencoding('u原创 2017-10-12 12:32:32 · 402 阅读 · 0 评论 -
爬虫学习笔记--Tor隐藏Ip
因为在爬虫时,如果使用了默认的IP 可能导致自己的IP遭到封禁所以就要隐藏自己的IP 事先说明 爬虫要有度 也要考虑服务器的压力 本篇基于win10 tor的原理http://www.cnblogs.com/likeli/p/5719230.htmlhttp://blog.csdn.net/whiup/article/details/52317779ht原创 2017-10-14 14:08:38 · 5317 阅读 · 0 评论 -
爬虫学习笔记--识别验证码
在爬虫过程中 有些登陆 会遇到验证码这里可以使用PIL、pytesser、tesseract参考这篇文章http://blog.csdn.net/evankaka/article/details/49533493但是有些工具就不要用这篇文章推荐的了 要很多积分pytesseract 可以使用pip 下载 至于tesseract可以用官网的资源https://sour原创 2017-10-14 16:04:26 · 406 阅读 · 0 评论