第五个爬虫 python + selenium + phantomjs

最新推荐文章于 2021-03-16 18:52:20 发布

HopKinsXX

最新推荐文章于 2021-03-16 18:52:20 发布

阅读量602

点赞数 1

本文链接：https://blog.csdn.net/HopJins/article/details/86710089

版权

学习爬虫提高点工作效率,真的是一步一个坑啊,不过好在工作中的某个环节可以用这个爬虫代替.

这个方法应该是比较笨,比较原始的方法了,下一步试试Scrapy + spynner 爬取动态网页.

在这里给我这样的小白提个醒吧!

1...我用 pyinstaller 给我的python代码打包,我的开始的环境是 (win10 64bit) (python 3.7.1 64bit) (vscode)

结论就是: 卸载64bit的python,不然其他32bit的系统不能用,重新安装了32bit的python3.7.2

愉快的打完包,单位xp系统的电脑不能用,xp上运行的话python版本不能超过3.4

vmw里面装了个xp 安装python3.4.4 在这里面重新打包exe 可以运行了!

2...phantomjs我觉得还是比chrome要好,功能差了一点,性能差了一点,但是它就一个单文件就可以运行,

总比还得安装chrome强吧,打包的话还得用绿色版的chrome,不方便.可惜phantomjs让google干黄了,

phantomjs最新版2.11也不支持xp了,得找1.9.8版. 都在这了: http://npm.taobao.org/dist/phantomjs/

3...如果代码里要用的读取文件,保存文件,删除文件,那么vscode在文件路径的坑真的是连门牙都卡掉了

如果代码里是绝对路径,打包之后别的电脑几乎运行不成功,除非放在路径一样的地方,不现实嘛

如果代码里用的相对路径,vscode里面还有个工作区的地方,实在是懒得在查了他为啥要这么来了,

写完主要代码后,用pycharm或者sublime里面在写相关的路径代码最省心了.

4...爬取网站信息的时候不要完全相信浏览器里复制出来的xpath路径,总之我这个网站是不行,返回空值,

bs4也不错,网站格式混乱的也差点意思,总之就是自己写xpath路径最靠谱,复制出来的能用也可以.

5...之前几个爬虫用的都是xlwt xlrd 现在看这两个库很过时,只支持xls格式,但是简单粗暴有效.

pandas好用,还能爬数据,但是打包真是打不上........

import os, sys
import xlrd
import time
import xlwt
import requests
from lxml import etree
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by impor

最低0.47元/天解锁文章

HopKinsXX

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第五个爬虫 python + selenium + phantomjs

学习爬虫提高点工作效率,真的是一步一个坑啊,不过好在工作中的某个环节可以用这个爬虫代替.这个方法应该是比较笨,比较原始的方法了,下一步试试Scrapy + spynner 爬取动态网页.在这里给我这样的小白提个醒吧!1...我用 pyinstaller 给我的python代码打包,我的开始的环境是 (win10 64bit) (python 3.7.1 64bit) ...
复制链接

扫一扫