![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习笔记
Qin_xian_shen
程序员
展开
-
爬虫学习笔记--爬取静态网页
声明:我这里是学习 唐松老师的《Python网络爬虫从入门到实践》的学习笔记 只是记录我自己学习的过程 详细内容请购买老师正版图书 import requests r = requests.get('http://www.santostang.com/') print ("文本状态码:",r.encoding); print("响应状态码:",r.status_code); prin原创 2017-09-27 13:12:35 · 2088 阅读 · 0 评论 -
爬虫学习--基于selenium动态抓捕(一)安装
selenium是什么呢?Selenium[1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器 源自百度百科 这个工具非常好用,可以帮助我们去模拟浏览器,把这个运用到爬虫,就可以近似人为操作一样,并且爬到动态的信息。比如一些淘宝的评论,不是静态网页原创 2017-09-28 08:24:13 · 290 阅读 · 0 评论 -
爬虫学习笔记--Selenium PhantomJS
import os import threading import re from bs4 import BeautifulSoup from urllib.request import urlopen from selenium import webdriver browserPath = '/opt/phantomjs-2.1.1-linux-x86_64/bin/phantomjs'原创 2017-09-28 22:20:57 · 333 阅读 · 0 评论 -
爬虫学习笔记--用selenium 爬数据到Mysql
# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Keys import MySQLdb; import sys import time reload(sys) sys.setdefaultencoding('utf-8') con = MySQLdb.原创 2017-09-29 17:55:18 · 1071 阅读 · 0 评论 -
python爬虫--连接MongoDB 存数据
之前做爬虫 爬取贴吧松爱协会的内容是存在txt文件的 这个并不好 所以这一次存在Mongdb 这次是在windows 安在Mongodb里 官网下载 https://www.mongodb.com/download-center?jmp=nav#community 启动: mongod.exe --logpath "c:\data\log\mongodb.log"原创 2017-10-17 18:52:45 · 1966 阅读 · 0 评论 -
爬虫学习笔记--爬B站评论
由于松爱协会的小伙伴邀请,我研究了一下爬取b站上协会的一些精彩评论 由于评论是动态的,所以要用到 selenium 之前的博文里已经有关于selenium的安装注意事项 还要用到Firefox的firebug 去获取xpath信息 target = app.find_element_by_xpath(".//*[@id='recommend_report']/di原创 2017-10-12 12:22:02 · 3935 阅读 · 0 评论 -
爬虫学习笔记--爬取百度贴吧
由于松爱协会小伙伴的邀请 我把贴吧里的一些诗集整理了一下 用爬虫爬取下来 由于是静态的 不需要用到selenuim 就直接贴代码了 #coding=utf-8 import requests from bs4 import BeautifulSoup import sys import time reload(sys) sys.setdefaultencoding('u原创 2017-10-12 12:32:32 · 404 阅读 · 0 评论 -
爬虫学习笔记--Tor隐藏Ip
因为在爬虫时,如果使用了默认的IP 可能导致自己的IP遭到封禁 所以就要隐藏自己的IP 事先说明 爬虫要有度 也要考虑服务器的压力 本篇基于win10 tor的原理 http://www.cnblogs.com/likeli/p/5719230.html http://blog.csdn.net/whiup/article/details/52317779 ht原创 2017-10-14 14:08:38 · 5331 阅读 · 0 评论 -
爬虫学习笔记--识别验证码
在爬虫过程中 有些登陆 会遇到验证码 这里可以使用PIL、pytesser、tesseract 参考这篇文章 http://blog.csdn.net/evankaka/article/details/49533493 但是有些工具就不要用这篇文章推荐的了 要很多积分 pytesseract 可以使用pip 下载 至于tesseract可以用官网的资源 https://sour原创 2017-10-14 16:04:26 · 408 阅读 · 0 评论