第五个爬虫 python + selenium + phantomjs

学习爬虫提高点工作效率,真的是一步一个坑啊,不过好在工作中的某个环节可以用这个爬虫代替.

这个方法应该是比较笨,比较原始的方法了,下一步试试Scrapy + spynner 爬取动态网页.

在这里给我这样的小白提个醒吧!

1...我用 pyinstaller 给我的python代码打包,我的开始的环境是 (win10 64bit)     (python 3.7.1    64bit)     (vscode)

结论就是: 卸载64bit的python,不然其他32bit的系统不能用,重新安装了32bit的python3.7.2

                愉快的打完包,单位xp系统的电脑不能用,xp上运行的话python版本不能超过3.4

                vmw里面装了个xp 安装python3.4.4 在这里面重新打包exe  可以运行了!

2...phantomjs我觉得还是比chrome要好,功能差了一点,性能差了一点,但是它就一个单文件就可以运行,

     总比还得安装chrome强吧,打包的话还得用绿色版的chrome,不方便.可惜phantomjs让google干黄了,

     phantomjs最新版2.11也不支持xp了,得找1.9.8版.  都在这了: http://npm.taobao.org/dist/phantomjs/

3...如果代码里要用的读取文件,保存文件,删除文件,那么vscode在文件路径的坑真的是连门牙都卡掉了

     如果代码里是绝对路径,打包之后别的电脑几乎运行不成功,除非放在路径一样的地方,不现实嘛

     如果代码里用的相对路径,vscode里面还有个工作区的地方,实在是懒得在查了他为啥要这么来了,

     写完主要代码后,用pycharm或者sublime里面在写相关的路径代码最省心了.

4...爬取网站信息的时候不要完全相信浏览器里复制出来的xpath路径,总之我这个网站是不行,返回空值,

     bs4也不错,网站格式混乱的也差点意思,总之就是自己写xpath路径最靠谱,复制出来的能用也可以.

5...之前几个爬虫用的都是xlwt xlrd 现在看这两个库很过时,只支持xls格式,但是简单粗暴有效.

     pandas好用,还能爬数据,但是打包真是打不上........

import os, sys
import xlrd
import time
import xlwt
import requests
from lxml import etree
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by impor
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值