学习爬虫提高点工作效率,真的是一步一个坑啊,不过好在工作中的某个环节可以用这个爬虫代替.
这个方法应该是比较笨,比较原始的方法了,下一步试试Scrapy + spynner 爬取动态网页.
在这里给我这样的小白提个醒吧!
1...我用 pyinstaller 给我的python代码打包,我的开始的环境是 (win10 64bit) (python 3.7.1 64bit) (vscode)
结论就是: 卸载64bit的python,不然其他32bit的系统不能用,重新安装了32bit的python3.7.2
愉快的打完包,单位xp系统的电脑不能用,xp上运行的话python版本不能超过3.4
vmw里面装了个xp 安装python3.4.4 在这里面重新打包exe 可以运行了!
2...phantomjs我觉得还是比chrome要好,功能差了一点,性能差了一点,但是它就一个单文件就可以运行,
总比还得安装chrome强吧,打包的话还得用绿色版的chrome,不方便.可惜phantomjs让google干黄了,
phantomjs最新版2.11也不支持xp了,得找1.9.8版. 都在这了: http://npm.taobao.org/dist/phantomjs/
3...如果代码里要用的读取文件,保存文件,删除文件,那么vscode在文件路径的坑真的是连门牙都卡掉了
如果代码里是绝对路径,打包之后别的电脑几乎运行不成功,除非放在路径一样的地方,不现实嘛
如果代码里用的相对路径,vscode里面还有个工作区的地方,实在是懒得在查了他为啥要这么来了,
写完主要代码后,用pycharm或者sublime里面在写相关的路径代码最省心了.
4...爬取网站信息的时候不要完全相信浏览器里复制出来的xpath路径,总之我这个网站是不行,返回空值,
bs4也不错,网站格式混乱的也差点意思,总之就是自己写xpath路径最靠谱,复制出来的能用也可以.
5...之前几个爬虫用的都是xlwt xlrd 现在看这两个库很过时,只支持xls格式,但是简单粗暴有效.
pandas好用,还能爬数据,但是打包真是打不上........
import os, sys
import xlrd
import time
import xlwt
import requests
from lxml import etree
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by impor