2018年08月_凤凰传奇的粉丝

12月 11月 09月 08月 07月 06月 05月 04月

原创我要爬爬虫(11)-用selenium爬取淘宝商品信息

思路就是用selenium操作浏览器，访问淘宝，输入关键词，查找，用pyquery解析目标信息，翻页，存储到mongodb. 函数定义三个： 1 打开浏览器，查找初始化，翻页 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support....

2018-08-17 17:03:47 550

原创 win10非anaconda的tesserocr安装

对于没使用anaconda的我，是这样安装tesserocr的。首先安装tesseract,在https://digi.bib.uni-mannheim.de/tesseract/里找到非dev的稳定版本，对应py3.5的tesseract-ocr-setup-3.05.01-20170602.exe。双击安装后，选择additional language data(download)支持...

2018-08-17 14:02:06 486

原创 Win10家庭版安装Docker和splash

我的系统是win10家庭版，没有专业版自带的hyper-v虚拟机服务，所以只能使用dockertools和virtualbox的组合。 1 在Docker官网找到最新版本的dockertool 提示要先登录再下载，所以要注册登录一下，这里需要翻墙验证，不然按钮无法点击。下载完毕后双击安装都没问题，最后一步提示是否安装硬件，要选择安装，不然就会安装失败。主要操作在Docker qui...

2018-08-15 03:47:39 3739 3

原创我要爬爬虫(10)-selenium使用

selenium是一个自动化测试工具，之前实现自动购票的时候就用过，这里再学一遍。就是驱动浏览器执行操作，比如点击，输入，拖拽等等。 selenium下有对应很多浏览器的webdriver,例如 browser=webdriver.Chrome()#这里只要实例化，就会打开指定的浏览器这样就实例化一个chrome浏览器对象。然后请求网页，获取源代码。 browser.get('htt...

2018-08-14 00:33:39 313

原创我要爬爬虫(9)-Ajax数据爬取

很多网页的源代码和其实际的展示效果不一样，是因为有两段请求，除了我们向服务器发送的请求，还有该页面发送的ajax请求，是它把简单的原网页渲染成展示出来的效果。我们的目的就是实例化这个请求。 ajax请求的类型为xhr。 referer:ajax 请求的发送者 X-Request-With:XMLHttpRequest 这个属性标记该请求为ajax请求。 import requests fr...

2018-08-13 20:47:34 391

from flask import Flask from flask import render_template, redirect,url_for from flask import request import psycopg2 username=None app = Flask(__name__) @app.route('/') def wel(): #redirect('/login', 'cate_id=2&status=1', 1, '页面跳转中...') return redirect('/login') #return render_template('login.html') @app.route('/login') def login_page(): return render_template('login.html') @app.route

2018-03-14

ubuntu系统中import h5py， ImportError: No module named h5py的解决方法

2017-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 我要爬爬虫(11)-用selenium爬取淘宝商品信息